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为 什么 要 写 这 本 书 

近年 来 ,大 数据 (big data) 一 词 越 来 越 多 地 被 提 及 ,人 们 用 它 来 描述 和 定义 信息 爆炸 时 
代 产 生 的 海量 数据 ,并 命名 与 之 相关 的 技术 发 展 与 创新 。 它 已 经 上 过 《纽约 时 报 》《 华 尔 街 
日 报 》 的 专栏 封面 ,进入 美国 白 官 官网 的 新 闻 , 现 身 在 国内 一 些 互联 网 主题 的 讲座 沙龙 中 ,其 
至 被 嗅觉 灵敏 的 国 金 证 券 .国泰 君 安 .银河 证 券 等 写 进 了 投资 推荐 报告 。 最 早 提 出 “大 数据 ” 
时 代 到 来 的 是 全 球 知名 咨询 公司 麦肯锡 。 麦 肯 锡 称 :“ 数 据 , 已 经 渗透 到 当今 每 一 个 行业 和 
业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运用 ,预示 着 新 一 波 生产 
率 增长 和 消费 者 盈余 浪潮 的 到 来 。”“ 大 数据 ”在 物理 学 、 生 物 学 、 环 境 生态 学 等 领域 以 及 军 
事 , 金 融 、 通 信 等 行业 存在 已 有 时 日 , 却 因 为 近年 来 互联 网 和 信息 行业 的 发 展 而 引起 人 们 关 
注 。 数 据 正在 迅速 膨胀 并 变 大 , 它 决定 着 企业 的 未 来 发 展 ,虽然 很 多 企业 可 能 还 没有 意识 到 
数据 爆炸 性 增长 带 来 问题 的 隐患 ,但 是 随 着 时 间 的 推移 ,人 们 将 越 来 越 多 地 意识 到 数据 对 企 
业 的 重要 性 。 

在 如 今 的 社会 ,大 数据 的 应 用 越 来 越 彰显 它 的 优势 , 它 占 领 的 领域 也 越 来 越 大 ,如 电子 
商务 .DO2O、 物 流 配 送 等 ,各 种 利用 大 数据 进行 发 展 的 领域 正在 协助 企业 不 断 地 发 展 新 业务 
和 创新 运营 模式 。 有 了 大 数据 这 个 概念 ,对 于 消费 者 行为 的 判断 ,产品 销售 量 的 预测 ,精确 
的 营销 范围 以 及 存货 的 补给 已 经 得 到 全 面 的 改善 与 优化 。 然 而 ,这 些 数据 的 规模 是 如 此 庞 
大 ,以 至 于 不 能 用 G 或 工 来 衡量 。 

为 了 解决 这 些 数 据 的 存储 和 相关 计算 问题 ,就 必须 构建 一 个 强大 且 稳 定 的 分 布 式 集群 
系统 作为 搜索 引擎 的 基础 架构 支撑 平台 ,但 是 对 于 大 多 数 互 联网 公司 而 言 ,研发 这 样 一 个 高 
效 性 能 系统 往往 要 支付 高 晶 的 费用 。 经 过 多 年 的 发 展 , 如 今 已 形成 了 以 Hadoop 为 核心 的 
大 数据 生态 系统 ,开创 了 通用 海量 数据 处 理 基础 架构 平台 的 先河 。Hadoop 是 一 个 优秀 的 
分 布 式 计算 系统 ,利用 通用 的 硬件 就 可 以 构建 一 个 强大 、 稳 定 、 简 单 并 且 高 效 的 分 布 式 集群 
计算 系统 ,完全 可 以 满足 互联 网 公司 基础 架构 平台 的 需求 ,付出 相对 低廉 的 代价 就 可 以 轻松 
处 理 超大 规模 的 数据 。 因 此 ,使 用 Hadoop 的 公司 越 来 越 多 ,具有 丰富 工作 经 验 的 Hadoop 
人 才 也 就 越 来 越 供不应求 ,从 而 学 习 和 使 用 Hadoop 的 爱好 者 和 开发 者 也 越 来 越 多 ,编写 这 
本 书 也 正 是 为 了 帮助 更 多 的 人 学 习 并 掌握 Hadoop 技术 ,从 而 推动 Hadoop 技术 在 中 国 的 
推广 ,进而 推动 中 国信 息 产业 的 发 展 。 

读者 对 象 

本 书 适合 以 下 读者 阅读 : 

CL) 大 数据 技术 的 学 习 者 和 爱好 者 ; 

(2) 有 Java 基础 的 开发 者 ; 

(3) Hadoop 技术 开发 者 ; 


(4) Hadoop 集群 运 维 开发 者 ; 

(5) 分 布 式 系统 的 相关 研发 人 员 。 

如 何 阅 读本 书 

本 书 分 为 三 个 部 分 。 

第 一 部 分 为 简介 。 简 介 部 分 为 第 1 章 , 主 要 介绍 了 大 数据 的 时 代 背 景 ,从 大 数据 来 源 到 
大 数据 的 价值 和 影响 ,以 及 对 应 用 场景 和 发 展 前 景 的 介绍 ,帮助 用 户 明白 什么 是 大 数据 ,大 
数据 是 用 来 干什么 的 ,以 及 大 数据 的 发 展 前 景 是 怎样 的 。 大 数据 的 基本 概念 ,首先 明白 什么 
是 大 数据 ,大 数据 中 数据 结构 的 复杂 度 ,重点 明白 大 数据 的 四 个 核心 特征 ,接着 了 解 大 数据 
所 使 用 的 技术 ,最 后 介绍 了 一 些 大 数据 的 应 用 实例 ,帮助 大 家 更 好 地 理解 大 数据 、 大 数据 系 
统 , 理 解 其 核心 设计 目标 ,在 系统 设计 目标 的 实现 过 程 中 ,系统 还 需 遵循 一 定 的 设计 原则 。 

第 二 部 分 为 Hadoop 技术 的 讲解 ,包括 第 2 章 到 第 9 章 。 从 认识 Hadoop 开始 到 正式 介 
绍 Hadoop 的 基本 应 用 ,通过 HDFS 分 布 式 文件 系统 和 MapReduce 并 行 计算 模型 从 理论 到 
实现 机 制 的 角度 对 Hadoop 计算 进行 讲解 。 讲 述 了 HDFS 的 特性 和 目标 、 核 心 设计 、 体 系 结 
构 以 及 HDFS 中 数据 流 的 读 写 、.HA 机 制 和 Federation 机 制 ,同时 重点 介绍 了 HDFS 的 命 
令 行 接口 和 Java 接口 。 接 着 介绍 了 Hadoop I/O 〇 ,讲述 了 数据 的 完整 性 、 文 件 压缩 、 问 价 序 
列 化 和 Hadoop 文件 的 数据 结构 。 最 后 是 对 MapReduce 的 讲解 ,由 浅 入 深 ,讲述 了 
MapReduce 的 编程 模型 ,MapReduce 应 用 编程 开发 ,包括 MapReduce 的 类 型 格式 ,Java 
API 解析 ,还 重点 讲述 了 MapReduce 的 工作 机 制 与 YARN 平台 ,包括 MapReduce 作业 运 
行 机 制 的 剖析 .shuffle 和 排序 、 任 务 的 执行 作业 调度 `YARN 平台 的 简介 和 架构 。 

第 三 部 分 为 实战 部 分 ,包括 第 10 章 和 第 11 章 。 首 先是 从 几 个 具体 的 小 实例 讲解 了 简 
单 高 效 的 MapReduce 编程 方式 。 然 后 通过 最 后 的 MapReduce 编程 实例 , 带 我 们 进入 大 数 
据 实战 项 目 , 帮 助 学 习 者 更 深入 地 掌握 Hadoop 技术 。 

勘误 和 支持 

除 本 书 编 委 会 以 外 ,参加 本 书 编写 的 工作 人 员 有 : 毛 妍 、 白 高 平 . 赵 真 。 由 于 本 书 编写 
者 水 平 有 限 , 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 , 恳 请 读者 批评 指正 ,可 以 将 书 中 
过 到 的 错误 和 问题 发 邮件 到 mayh@zkpk. org, 希 望 您 能 提出 更 多 宝贵 的 意见 ,期 待 您 的 真 
ER. 
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本 章 提 要 


在 这 个 日 新 月 异 发 展 的 社会 中 ,人 们 发 现 未 知 领域 的 规律 主要 依赖 抽样 数据 、 局 部 数据 
和 片面 数据 ,甚至 无 法 获得 真实 数据 时 只 能 纯粹 依赖 经 验 理论, 假设 和 价值 观 去 认识 世界 。 
因此 ,人 们 对 世界 的 认识 往往 是 表面 的 、 肤 浅 的 、 简 单 的 、 捏 曲 的 或 者 是 无 知 的 。 然 而 大 数据 
时 代 的 来 临 使 人 类 拥有 更 多 的 机 会 和 条 件 在 各 个 领域 更 深入 地 获得 和 使 用 全 面 数 据 、 完 整 
数据 和 系统 数据 ,深入 探索 现实 世界 的 规律 。 大 数据 的 出 现 帮助 商家 了 解 用 户 、 锁 定 资源 、 
规划 生产 、 做 好 运营 及 开展 服务 。 

本 章 主要 从 大 数据 时 代 背 景 , 大 数据 基本 概念 ,大 数据 系统 以 及 大 数据 与 企业 等 方面 ， 
让 读者 对 大 数据 有 初步 的 认识 。 


L1 大 数据 时 代 背 景 


中 国 庞大 的 人 数 和 应 用 市 场 ,其 复杂 性 高 并 且 充满 变化 ,从 而 成 为 世界 上 拥有 最 复杂 的 
大 数据 的 国家 。 解 决 这 种 由 大 规模 数据 引发 的 问题 ,探索 以 大 数据 为 基础 的 解决 方案 ,是 中 
国产 业 升级 ,效率 提高 的 重要 手段 。 因 此 ,解决 大 数据 这 一 问题 不 仅 提高 公司 的 竞争 力 ,也 
能 提高 国家 竞争 力 。 


1.1.1 大 数据 的 数据 源 


近年 来 , 随 着 信息 技术 的 发 展 ,我 国 在 各 个 领域 产生 了 海量 数据 ,主要 分 布 如 下 。 

1. 以 BAT 为 代表 的 互联 网 公司 

(1) 阿里 巴巴 : 目前 保存 的 数据 量 为 近 百 个 拍 字 节 (PB),90% 以 上 是 电 商 数据 、 交 易 数 
据 、 用 户 浏览 和 点 击 网 页 数据 、 购 物 数 据 。 

(2) 百度 : 2013 年 的 数据 总 量 接近 一 千 个 拍 字 节 (PB) ,主要 来 自 中 文 网 .百度 推广 、 百 
度 日 志 、UGC, 由 于 占有 70% 以 上 的 搜索 市 场 份 额 从 而 坐 拥 庞大 的 搜索 数据 。 

(3) 腾讯 : 存储 数据 经 压缩 处 理 后 总 量 在 100PB 左右 .数据 量 月 增 10% ,主要 是 大 量 社 
交游 戏 等 领域 积累 的 文本 音频、 视频 和 关系 类 数据 。 

2. 电信 ,金融 与 保险 、 电 力 与 石化 系统 

(1) 电信 : 包括 用 户 上 网 记录 、 通 话 、 信 息 、 地 理 位 置 等 。 运营 商 拥有 的 数据 量 都 在 
10PB 以 上 ,年 度 用 户 数 据 增长 数 十 拍 字 节 (PB) 。 


(2) 金融 与 保险 : 包括 开户 信息 数据 .银行 网 点 和 在 线 交易 数据 .自身 运营 的 数据 等 。 
金融 系统 每 年 产生 数据 达 数 十 拍 字 节 (PB) ,保险 系统 数据 量 也 接近 拍 字 节 (PB) 级 别 。 

(3) 电力 与 石化 : 仅 国 家 电网 采集 获得 的 数据 总 量 就 达到 10 个 拍 字 节 (PB) 级 别 , 石 化 
行业 .智能 水 表 等 每 年 产生 和 保存 下 来 的 数据 量 也 达到 数 十 拍 字 节 (PB) 级 别 。 

3. 公共 安全 、 医 疗 、 交 通 领 域 

(1) 公共 安全 : 在 北京 ,就 有 50 万 个 监控 摄像 头 ,每 天 采集 视频 数量 约 3PB, 整 个 视频 
监控 每 年 保存 下 来 的 数据 在 数 百 拍 字 节 (PB) 以 上 。 

(2) 医疗 卫生 : 据 了 解 ,整个 医疗 卫生 行业 一 年 能 够 保存 下 来 的 数据 就 可 达到 数 百 PB。 

(3) 交通 : 航班 往返 一 次 就 能 产生 太 字 节 (TB) 级 别 的 海量 数据 ;列车 ,水 陆路 运输 产生 
的 各 种 视频 、 文 本 类 数据 ,每 年 保存 下 来 的 也 达到 数 十 拍 字 节 (PB)。 

4. 气象 与 地 理 、 政 务 与 教育 等 领域 

(1) 气象 与 地 理 : 中 国 幅 页 辽阔 ,气象 局 保存 的 数据 为 4 一 5PB, 每 年 约 增 数 百 个 太 字 节 
CTB) ,各 种 地 图 和 地 理 位 置信 息 每 年 约 增 数 十 太 字 节 (PB) 。 

(2) 政务 与 教育 : 北京 市 政务 数据 资源 网 涵盖 旅游 .教育 .交通 、 医 疗 等 门类 ,一 年 上 线 
公布 400 余 个 数据 包 。 政 务 数据 多 为 结构 化 数据 。 

5. 其 他 行业 

线 下 商业 销售 .农林 牧 渔 业 . 线 下 餐饮 食品、 科研 、 物 流 运输 等 行业 数据 量 还 处 于 积累 
期 ,整个 体积 都 不 算 大 ,多 则 达到 拍 字 节 (PB) 级 别 , 少 则 几 百 太 字 节 (TB) ,甚至 只 有 数 十 太 
字 节 (TB) 级 别 ,但 增 速 很 快 。 


1.1.2 大 数据 的 价值 和 影响 


数量 巨大 ,与 微观 情境 相 结 合 的 运行 记录 信息 的 最 终结 果 就 是 大 数据 。 尽 管 运 行 记录 
信息 不 是 大 数据 的 全 部 ,但 却 应 该 是 以 后 大 数据 的 主流 。 目 前 看 得 到 的 金融 电信、 航空 、 电 
商 ,零售 渠道 等 领域 中 的 大 数据 ,多 数 也 都 是 运行 记录 信息 。 大 数据 具有 采集 过 程 价值 未 
知 、 力 争 全 面 、 即 时 、 系 统 性 并 发 的 记录 方式 ,以 及 主 受 体 统一 和 大 微观 的 特征 ,这 些 特征 决 
定 了 大 数据 的 价值 发 挥 。 

大 数据 的 应 用 很 广泛 ,解决 了 大 量 的 日 常 问题 。 大 数据 是 利害 依 关 的 , 它 将 重 塑 人 们 的 
生活 、 工 作 和 思维 方式 , 比 其 他 划时代 创新 引起 的 社会 信息 范围 和 规模 急剧 扩大 所 带 来 的 影 
响 更 大 。 大 数据 需要 人 们 重新 讨论 决策 、 命 运 和 正义 的 性 质 。 人 们 的 世界 观 正 受到 大 数据 
优势 的 挑战 ,拥有 大 数据 不 但 意味 着 掌握 过 去 ,更 意味 着 能 够 预测 未 来 。 因 此 ,大 数据 给 人 
们 带 来 了 巨大 的 价值 和 影响 。 

(1) 全 面 洞 察 客户 信息 。 全 面 分 析 来 自 渠道 的 反馈 、 社 会 传媒 等 多 源 信息 ,让 每 个 客户 
作为 个 体 了 解 全 景 。 

(2) 提升 企业 的 资源 管理 : 利用 实时 数据 实现 预测 性 维护 ,并 减少 故障 ,推动 产品 和 服 
务 开发 。 

G) 数据 深度 利用 。 梳 理 结构 化 、 非 结构 化 海量 历史 /实时 、 地 理 信息 4 类 数据 资源 ， 
以 企业 核心 业务 及 应 用 为 主线 实现 四 类 数据 资源 的 关联 利用 。 

(4) 风险 及 时 感知 和 控制 。 通 过 全 面 数据 分 析 改 进 风 险 模型 ,结合 交易 流 数 据 实 时 捕 
获 风险 ,及 时 有 效 地 控制 。 


(5) 辅助 智能 决策 。 实 时 分 析 所 有 的 运营 数据 和 效果 反馈 ,优化 运营 流程 。 利 用 投资 
回报 率 最 大 程度 减少 信息 技术 成 本 。 

(6) 更 快 和 更 大 规模 的 产品 创新 。 多 源 捕获 市 场 反馈 ,利用 海量 市 场 数 据 和 研究 数据 
来 快速 驱动 创新 。 


1.1.3 大 数据 技术 应 用 场景 


当前 ,大 数据 技术 的 应 用 涉及 各 个 行业 领域 。 

1. 大 数据 在 金融 行业 的 应 用 

近年 来 , 随 着 “互联 网 金融 ”概念 的 兴起 ,催生 了 一 大 批 金 融 、 类 金融 机 构 转 型 或 布局 的 
服务 需求 ,相关 产业 服务 应 运 而 生 。 而 随 着 互联 网 金融 向 纵深 发 展 ,行业 竞争 日 趋 白 热 化 ， 
金融 .类 金融 机 构 在 其 中 的 短 板 日 益 凸 显 。 为 了 更 好 地 获得 最 佳 商机 ,金融 行业 也 步 人 了 大 
数据 时 代 。 

华尔街 某 公司 通过 分 析 全 球 3. 4 亿 微 博 账户 留言 来 判断 民众 情绪 。 人 们 高 兴 的 时 候 会 
买 股票 ,而 焦虑 的 时 候 会 抛售 股票 , 它 通过 判断 全 世界 高 兴 的 人 多 还 是 焦虑 的 人 多 来 决定 公 
司 股票 的 买 人 还 是 卖 出 。 

阿里 公司 根据 在 淘宝 网 上 中 小 企业 的 交易 状况 筛选 出 财务 健康 和 诚信 经 营 的 企业 ,给 
他 们 提供 贷款 ,并 且 不 需要 这 些 中 小 企业 的 担保 。 目 前 阿里 公司 已 放贷 款 上 千 亿 元 ,坏账 率 
仅 为 0.3%。 

2. 大 数据 在 政府 的 应 用 

为 充分 运用 大 数据 的 先进 理念 、 技 术 和 资源 ,加 强 对 我 国 各 地 市 场 主体 的 服务 和 监管 ， 
推进 简 政 放权 和 政府 职能 转变 ,提高 政府 治理 能 力 ,我 国 一 些 省 市 运用 大 数据 加 强 对 市 场 主 
体 服 务 和 监管 实施 方案 已 然 出 炉 。 

3. 大 数据 在 医疗 健康 的 应 用 

随 着 医疗 卫生 信息 化 建设 进程 的 不 断 加 快 ,医疗 数据 的 类 型 和 规模 也 在 以 前 所 未 有 的 
速度 迅猛 增长 ,甚至 产生 了 无 法 利用 目前 主流 软件 工具 的 现象 ,这 些 医疗 数据 能 帮助 医改 在 
合理 的 时 间 内 达到 搬 取 管理 信 息 并 整合 成 为 能 够 帮助 医院 进行 更 积极 的 经 营 决 策 的 有 用 
信息 。 这 些 具有 特殊 性 、 复 杂 性 的 庞大 的 医疗 大 数据 , 仅 靠 个 人 甚至 个 别 机 构 来 进行 搜索 ， 
那 基本 是 不 可 能 完成 的 。 

4. 大 数据 在 宏观 经 济 管理 领域 的 应 用 

IBM 日 本 分 公司 建立 了 一 个 经 济 指标 预测 系统 , 它 从 互联 网 新 闻 中 搜索 出 能 影响 制造 
MEAS 480 项 经 济 数据 ,再 利用 这 些 数据 进行 预测 ,准确 度 相当 高 。 

印第安 纳 大 学 学 者 利用 Google 提供 的 心情 分 析 工 具 , 根 据 用 户 近 千 万 条 短信 、 微 博 留 
言 预测 琼斯 工业 指数 ,准确 率 高 达 87% 。 

淘宝 网 建立 了 “淘宝 CPI”, 通 过 采集 、 编 制 淘宝 网 上 390 个 类 目的 热门 商品 价格 来 统计 
CPI, 预 测 某 个 时 间 段 的 经 济 走势 比 国家 统计 局 的 CPI 还 提前 半 个 月 。 

5. 大 数据 在 农业 领域 的 应 用 

由 Google 前 雇员 创办 Climate 公司 ,从 美国 气象 局 等 数据 库 中 获得 几 十 年 的 天 气 数 
据 , 各 地 的 降雨 .气温 和 土壤 状况 及 历年 农作物 产量 做 成 紧凑 的 图 表 , 从 而 能 够 预测 美国 任 
一 农场 下 一 年 的 产量 。 农 场 主 可 以 去 该 公司 咨询 明年 种 什么 能 卖 出 去 、 能 赚钱 ,说 错 了 该 公 


司 负责 赔偿 ,赔偿 金额 比 保险 公司 还 要 高 ,但 到 目前 为 止 还 没 赔 过 。 

通过 对 手机 上 的 农产品 “移动 支付 ”数据 “采购 投入 ”数据 和 “补贴 ”数据 分 析 , 可 准确 预 
测 农 产品 生产 趋势 ,政府 可 依 此 决定 出 台 激 励 实施 和 确定 合适 的 作物 存储 量 , 还 可 以 为 农民 
提供 服务 。 

6. 大 数据 在 商业 领域 的 应 用 

沃尔玛 基于 每 个 月 4500 万 的 网 络 购物 数据 ,并 结合 社交 网 络 上 有 关 产 品 的 大 众 评分 ， 
开发 机 器 学 习 语 义 搜索 引擎 “北极 星 ”, 方 便 浏 览 , 在 线 购物 者 因此 增加 10% 一 15% ,销售 额 
增加 十 多 亿美 元 。 

沃尔玛 通过 手机 定位 ,可 以 分 析 顾 客 在 货柜 前 停留 时 间 的 长 短 , 从 而 判断 顾客 对 什么 商 
品 感 兴趣 。 

不 仅仅 是 通过 手机 定位 ,实际 上 美国 有 的 超市 在 购物 推 车 上 也 安装 了 位 置 传感器 ,根据 
顾客 在 不 同 货物 前 停留 时 间 的 长 短 来 分 析 顾 客 可 能 的 购物 行为 。 

在 淘宝 网 上 买 东西 时 ,消费 者 会 在 阿里 的 广告 交易 平台 上 留 下 记录 ,阿里 不 仅 从 交易 记 
录 平 台 把 消费 记录 拿 来 供 自己 使 用 ,还 会 把 消费 记录 卖 给 其 他 商家 。 

7. 大 数据 在 银行 的 应 用 

在 信用 卡 服务 方面 ,银行 首先 利用 移动 互联 网 技术 的 定位 功能 确定 商 圈 ,目前 已 实际 覆 
盖 全 国 161 个 商 圈 ,累计 服务 二 万 人 次 ;其 次 利用 用 户 活动 轨迹 追踪 ,确定 高 价值 商业 圈 设 
计 业 务 ; 再 利用 大 数据 进行 客户 需求 的 体验 分 析 。 既 包括 客户 的 需要 ,也 包括 客户 的 体验 ， 
最 终 实现 用 户 体 验 的 LIKE 曲线 。 


1.1.4 大 数据 技术 的 发 展 前 景 


据 预 测 ,到 2020 年 ,全 球 需要 存储 的 数据 量 将 达到 35 万 亿 吉 字 节 (GB) ,是 2009 年 数 
据 存储 量 的 44 倍 。 根 据 IDC 的 研究 ,2010 年 底 全 球 的 数据 量 已 达到 120 万 拍 字 节 (PB) 。 
这 些 数据 如 果 使 用 光盘 存储 , 摆 起 来 可 以 从 地 球 到 月 球 一 个 来 回 。 对 于 商业 而 言 ,这 里 孕育 
着 巨大 的 市 场 机 会 ,庞大 的 数据 就 是 一 个 信息 金 矿 。 数 据 是 企业 的 重要 资产 。 因 此 ,大 数据 
将 人 们 带 进 了 一 个 更 有 前 景 的 领域 。 

在 大 数据 时 代 , 一 批 新 的 大 数据 技术 正在 涌现 ,将 改变 人 们 分 析 处 理 海量 数据 的 方式 ， 
使 人 们 更 快 .更 经 济 地 获得 所 需 的 结果 。 传 统 商业 智能 限于 技术 瓶颈 很 大 程度 上 是 对 抽样 
数据 进行 分 析 。 大 数据 技术 就 是 要 打破 传统 商业 智能 领域 的 局 限 。 大 数据 技术 不 但 能 处 理 
结构 化 数据 ,还 能 分 析 和 处 理 各 种 半 结 构 化 和 非 结 构 化 数据 ,甚至 从 某 种 程度 上 ,更 擅长 处 
理 非 结构 化 数据 ,例如 Hadoop。 而 在 现实 生活 中 ,这 样 的 数据 更 为 普遍 ,增长 得 更 为 迅速 。 
例如 ,社交 媒体 中 的 各 种 交互 活动 .购物 网 站 用 户 点 击 行为 .图 片 . 电 子 邮件 等 。 可 以 说 , 正 
是 此 类 数据 的 爆炸 性 催生 了 大 数据 相关 技术 的 出 现 和 完善 ,从 而 让 人 们 知道 在 一 个 资源 有 
限 的 世界 中 应 该 提取 哪些 有 价值 的 信息 。 

大 数据 技术 的 出 现 和 完善 还 可 以 帮助 健康 保险 公司 不 做 体检 就 能 决定 保险 覆盖 面 ,并 
降低 提醒 病人 服药 的 成 本 。 通 过 大 数据 的 相关 性 .语言 可 以 得 到 翻译 ,汽车 可 以 在 预测 的 基 
础 上 自行 驾驶 。 人 们 之 所 以 能 做 所 有 的 这 些 事 ,新 工具 的 使 用 只 是 一 个 很 小 的 因素 , 比 拥有 
更 快 的 处 理 器 .更 多 的 存储 器 ,更 智能 的 软件 和 算法 更 重要 的 是 ,人 们 拥有 了 更 多 的 数据 , 继 
而 世界 上 更 多 的 事物 被 数据 化 了 。 显 然 , 人 类 量化 世界 的 雄心 先 于 计算 机 革命 ,但 是 数字 工 


有 具 将 数据 化 提升 到 了 新 的 高 度 。 不 仅 移动 电话 能 够 跟踪 到 呼叫 的 人 和 被 呼叫 人 所 在 的 位 
置 ,而 且 同 样 的 数据 也 能 用 于 断定 来 人 是 否 生病 了 。 

能 置身 于 信息 流 中 央 并 且 能 够 收集 数据 的 公司 通常 会 繁荣 兴旺 。 有 效 利 用 大 数据 需要 
专业 技术 和 丰富 的 想象 力 , 即 一 个 能 容纳 大 数据 的 心态 ,但 价值 的 核心 归功 于 数据 本 身 。 有 
时 ,重要 的 资产 并 不 仅仅 是 能 清楚 看 到 的 信息 ,聪明 的 公司 可 以 用 它 来 改善 现 有 的 服务 ,或 
推出 全 新 的 服务 。 

大 数据 将 成 为 理解 和 解决 当今 许多 紧迫 的 全 球 问题 所 不 可 或 缺 的 重要 工具 。 在 应 对 气 
候 变 化 问题 时 ,需要 对 污染 相关 的 数据 进行 分 析 得 出 最 佳 方案 ,从 而 明确 努力 方向 , 找 出 解 
决 问题 的 方法 。 全 球 范围 内 遍布 的 大 量 传 感 设备 ,包括 智能 手机 内 部 的 传感器 ,使 人 们 能 以 
更 高 的 细节 水 平 模拟 环境 。 而 世界 贫困 人 口 迫 切 需要 提高 医疗 保健 服务 ,降低 医疗 费用 ,这 
很 大 程度 上 可 以 靠 自动 化 来 实现 。 当 下 许多 似乎 需要 人 类 判断 力 才 能 进行 的 事情 ,其 实 可 
以 完全 交 由 计算 机 来 做 ,比如 癌 细 胞 活检 、 传 染病 爆发 前 期 的 模式 预测 等 。 

大 数据 也 被 用 于 发 展 经 济 和 理解 如 何 预防 冲突 。 基 于 手机 动向 数据 显示 ,非洲 许多 贫 
民 帘 地 区 经 济 活动 十 分 活跃 。 大 数据 还 揭示 了 最 有 可 能 引发 种 族 关系 紧张 的 社区 以 及 解除 
难民 危机 的 方式 。 只 有 当 科 技 应 用 于 生活 的 方方面面 时 ,大 数据 的 使 用 范围 才能 进一步 
扩大 。 

大 数据 能 帮助 人 们 更 好 地 进行 已 有 的 工作 ,并 处 理 全 新 事务 。 在 不 久 的 将 来 ,人 们 将 在 
生活 的 方方面面 使 用 到 大 数据 。 当 大 数据 成 为 日 常生 活 的 一 部 分 后 , 它 将 会 极 大 地 改变 人 
们 对 未 来 的 看 法 。 

大 数据 时 代 造 就 了 一 个 数据 库 无 所 不 在 的 世界 ,数据 监管 部 门面 临 前 所 未 有 的 压力 和 
责任 。 如 何 避 免 数 据 泄露 对 国家 利益 .公众 利益 ` 个 人 隐私 造成 伤害 ? 如 何 避 免 信息 不 对 
称 ,对 困难 群体 的 利益 构成 伤害 ?在 有 效 控制 风险 之 前 ,也 许 还 是 让 “大 数据 "继续 待 在 笼子 
里 更 好 一 些 。 

大 数据 的 经 济 价值 已 经 被 人 们 认可 ,大 数据 的 技术 正 逐 渐 成 熟 ,一 旦 完成 数据 的 整合 和 
监管 ,大 数据 爆发 的 时 代 即 将 到 来 。 人 们 现在 要 做 的 ,就 是 选 好 自己 的 方向 ,为 迎接 大 数据 
的 到 来 提前 做 好 准备 。 

以 未 来 的 视角 看 ,无 论 是 政府 .互联 网 公司 、IT 企业 ,还 是 行业 用 户 ,只 要 以 开放 的 心 
态 、 创 新 的 勇气 拥抱 “大 数据 ”, 大 数据 时 代 就 一 定 有 属于 中 国 的 机 会 。 


1.2 大 数据 基本 概念 


1.2.1 大 数据 定义 


麦肯锡 (美国 首届 一 指 的 咨询 公司 ) 是 研究 大 数据 的 先驱 。 在 其 报告 (Big data: The 
next frontier for innovation ,competition and productivity) 中 给 出 的 大 数据 定义 是 : 大 数 
据 指 的 是 大 小 超出 常规 的 数据 库 工具 获取 ,存储 、 管 理 和 分 析 能 力 的 数据 集 。 但 它 同 时 强 
调 , 并 不 是 说 一 定 要 超过 特定 太 字 节 (TB) 值 的 数据 集 才 能 算是 大 数据 。 

国际 数据 公司 (IDC) 从 大 数据 的 四 个 特征 来 定义 , 即 海量 的 数据 规模 (Volume) 快速 
的 数据 流转 和 动态 的 数据 体系 (Velocity)、 多 样 的 数据 类 型 (Variety)、 巨 大 的 数据 价值 


(Value). 

亚马逊 公司 (全 球 最 大 的 电子 商务 公司 ) 的 大 数据 科学 家 John Rauser 给 出 了 一 个 简单 
的 定义 : 大 数据 是 任何 超过 了 一 台 计 算 机 处 理 能 力 的 数据 量 。 

维基 百科 中 只 有 短 短 的 一 句 话 :“ 巨 量 资料 (Big Data) ,或 称 大 数据 , 指 的 是 所 涉及 的 资 
料 量 规模 巨大 到 无 法 通过 目前 主流 软件 工具 ,在 合理 时 间 内 达到 撒 取 ,管理 ,处 理 并 整理 成 
为 帮助 企业 经 营 决 策 更 积极 目的 的 资讯 .” 

而 在 百度 百科 中 是 这 样 定义 的 :“ 大 数据 (Big Data) ,是 指 无 法 在 可 承受 的 时 间 范 围 内 
用 常规 软件 工具 进行 捕捉 ,管理 和 处 理 的 数据 集合 .” 

综合 上 面 的 定义 ,可 以 得 出 以 下 几 点 。 

(1) 大 数据 并 没有 明确 的 界限 , 它 的 标准 是 可 变 的 。 大 数据 在 今天 的 不 同行 业 中 的 范 
围 可 以 从 几 十 太 字 节 (TB) 到 几 拍 字 节 (PB) ,但 在 20 年 前 1GB 的 数据 已 然 是 大 数据 了 。 可 
见 , 随 着 计算 机 软 硬 件 技术 的 发 展 ,符合 大 数据 标准 的 数据 集 容量 也 会 增长 。 

(2) 大 数据 不 仅仅 只 是 大 , 它 还 包含 了 数据 集 规模 已 经 超过 了 传统 数据 库 软 件 获取 、 存 
储 、 分 析 和 管理 能 力 的 意思 。 

IDC 报告 显示 , 计 到 2020 年 全 球 数据 总 量 将 超过 40ZB( 相 当 于 4 万 亿 GB) ,这 一 数据 
量 是 2011 年 的 22 倍 。 在 过 去 几 年 ,全 球 的 数据 量 以 每 年 58% 的 速度 增长 ,在 未 来 这 个 速 
度 会 更 快 。 如 果 按 照 现在 存储 容量 每 年 增长 40% 的 速度 计算 ,到 2017 年 需要 存储 的 数据 
量 其 至 会 大 于 存储 设备 的 总 容量 。 如 何 利用 大 数据 解决 科研 、 医 疗 、 能 源 、 商 业 、 政 府 管理 、 
城市 建设 等 领域 的 问题 ,是 全 世界 面临 的 问题 。 

举 几 个 大 家 熟悉 例子 : 2014 年 11 月 19 日 ,百度 在 京 召 开 “ 百 度 云 两 周年 媒体 沟通 会 ”， 
正式 宣布 百度 云 总 用 户 数 突破 两 亿 , 百 度 云 数据 存储 量 达 5EB, 这 些 数据 足以 塞 满 3. 4 亿 部 
16GB 内 存 的 iPhones ,如果 将 这 些 手机 首尾 相连 ,可 以 在 地 球 和 月 球 之 间 搭 建 16 条 星际 
通道 。 

2014 年 3 月 7 日 ,在 阿里 巴巴 有 史 以 来 最 大 型 对 外 开放 的 数据 峰会 “2014 西湖 品 学 大 
数据 峰会 "上 ,阿里 巴巴 大 数据 负责 人 披露 了 阿里 巴巴 目前 的 数据 储存 情况 。 目 前 在 阿里 巴 
巴 数据 平台 事业 部 的 服务 器 上 , 攒 下 了 超过 100PB 已 处 理 过 的 数据 ,等 于 104 857 600GB， 
相当 于 4 万 个 西雅图 中 央 图 书馆 ,580 亿 本 藏书 。 仅 淘宝 和 天 猫 两 个 子 公 司 每 日 新 增 的 数 
据 量 , 就 足以 让 一 个 人 连续 不 断 看 上 28 年 的 电影 。 而 如 果 将 一 个 人 作为 服务 器 , 则 此 人 处 
理 的 数据 量 相当 于 每 秒 钟 看 上 837 集 的 《来自 星 星 的 你 》。 

在 2013 年 的 数据 大 会 上 ,腾讯 公司 数据 平台 总 经 理 助理 蒋 杰 透 露 ,腾讯 QQ 目前 拥有 
8 亿 用 户 、4 亿 移 动用 户 ,在 数据 仓库 存储 的 数据 量 单机 群 数量 已 达到 4400 台 , 总 存储 数据 
量 经 压缩 处 理 后 约 100PB, 并 且 这 一 数据 还 在 日 增 200 ~ 300TB, 月 增加 率 为 10% 的 速度 
增长 。 

1993 年 《纽约 客 ) 刊 登 了 一 幅 漫 画 , 标 题 是 “互联 网 上 ,没有 人 知道 你 是 一 条 狗 ”。 据 说 
作者 彼得 . 施 泰 纳 因为 此 漫画 的 重印 而 赚 取 了 超过 5 万 美元 。 当 时 关注 互联 网 社会 学 的 一 
些 专 家 ,甚至 担忧 “计算 机 异性 扮 装 ?而 引发 的 社会 问题 。 

20 多 年 后 ,互联 网 发 生 了 巨大 的 变化 ,移动 互联 ,社交 网 络 .电子 商务 大 大 拓展 了 互联 
网 的 疆界 和 应 用 领域 。 人 们 在 享受 便利 的 同时 ,也 无 偿 贡 献 了 自己 的 “行踪 ”。 现 在 互联 网 
不 但 知道 对 面 是 一 条 狗 , 还 知道 这 条 狗 喜 欢 什么 食物 、 几 点 出 去 外 弯 、 几 点 回 窜 睡 觉 。 人 们 


不 得 不 接受 这 个 现实 ,每 个 人 在 互联 网 进入 到 大 数据 时 代 都 将 是 透明 存在 的 。 
1.2.2 大 数据 结构 类 型 


当今 企业 存储 的 数据 不 仅仅 是 内 容 多 ,而且 结构 已 发 生 了 极 大 改变 ,不 再 仅仅 是 以 二 维 
表 的 规范 结构 存储 。 大 量 的 数据 来 自 不 是 结构 化 的 数据 类 型 ( 半 结 构 化 数据 、 准 结构 化 数据 
或 非 结 构 化 数据 ) ,如 办 公文 档 \ 文 本 图片 XML、HTML、 各 类 报表 图片. 音频 和 视频 等 ， 
并 且 这 些 数 据 在 企业 的 所 有 数据 中 是 大 量 且 增长 迅速 的 。 企 业 80% 的 数据 来 自 不 是 结构 
化 的 数据 类 型 ,结构 化 数据 仅 有 20%% 。 全 球 结构 化 数据 增长 速度 约 为 32% ,而 不 是 结构 化 
的 数据 类 型 增 速 高 达 63%”。 预 计 今 年 不 是 结构 化 的 数据 类 型 占有 比例 将 达到 互联 网 整个 
数据 量 的 75% 以 上 。 

(1) 结构 化 数据 : 包括 预定 义 的 数据 类 型 .格式 和 结构 的 数据 。 例 如 ,关系 型 数据 库 中 
的 数据 。 

(2) 半 结 构 化 数据 : 具有 可 识别 的 模式 并 可 以 解析 的 文本 数据 文件 。 例 如 , 自 描述 和 
具有 定义 模式 的 XML 数据 文件 。 

(3) 准 结构 化 数据 : 具有 不 规则 数据 格式 的 文本 数据 ,使 用 工具 可 以 使 之 格式 化 。 例 
如 ,包含 不 一 致 的 数据 值 和 格式 化 的 网 站 点 击 数据 ,可 参考 http://www. zkpk. org/。 

(4) 非 结 构 化 数据 : 没有 固定 结构 的 数据 ,通常 保存 为 不 同类 型 的 文件 。 例 如 ,文本 文 
档 、 图 片 .音频 和 视频 。 


1.2.3 大 数据 核心 特征 


业界 通常 用 4 个 V, 即 Volume( 数 据 量 大 )、Variety( 类 型 繁多 ) .Value( 价 值 密度 低 )、 
Velocity( 速 度 快 ,时 效 高 ) 来 概括 大 数据 的 特征 。 

1. 数据 量 大 

如 今 存 储 数据 的 数量 正在 急速 增长 ,人 们 深 陷 在 数据 之 中 。 人 们 存储 的 数据 包括 环境 
数据 ,财务 数据 .医疗 数据 ,监控 数据 等 。 有 关 数 据 量 的 对 话 已 从 太 字 节 (TB) 级 别 转向 拍 字 
节 (PB) 级 别 ,并 且 不 可 避免 地 转向 泽 字 节 (ZB) 级 别 。 现 在 经 常 听 到 一 些 企业 使 用 存储 集群 
来 保存 拍 字 节 (PB) 级 的 数据 。 随 着 可 供 企业 使 用 的 数据 量 不 断 增长 ,可 处 理 、 理 解 和 分 析 
的 数据 比例 却 不 断 下 降 。 

2. 类 型 繁多 

与 大 数据 现象 有 关 的 数据 量 为 尝试 处 理 其 数据 中 心 带 来 了 新 的 挑战 。 随 着 传感器 、 智 
能 设备 以 及 社交 协作 技术 的 激增 ,企业 中 的 数据 也 变 得 更 加 复杂 ,因为 它 不 仅 包含 传统 的 关 
系 型 数据 ,还 包括 来 自 网 页 .互联 网 日 志文 件 ( 包 括 点 击 流量 数据 ) 音频、 视频 、 图 片 . 电 子 邮 
件 、 文 档 、 地 理 位 置信 息 、 主 动 和 被 动 的 传感器 数据 等 原始 、 半 结构 化 和 非 结 构 化 数据 ,这 些 
多 类 型 的 数据 对 数据 的 处 理 能 力 提出 了 更 高 要 求 。 

3. 价值 密度 低 

价值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 。 以 视频 为 例 , 一 部 1 小 时 的 视频 ,在 连续 不 
断 的 监控 中 ,有 用 数据 可 能 仅 有 一 二 秒 。 如 何 通过 强大 的 机 器 算法 更 迅速 地 完成 数据 的 价 
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4. 速度 快 、 时 效 高 

速度 快 、 时 效 高 是 大 数据 区 分 于 传统 数据 挖掘 的 最 显著 特征 。 根 据 IDC 的 “数字 宇宙 ” 
的 报告 ,预计 到 2020 年 ,全球 数据 使 用 量 将 达到 35. 2ZB。 在 如 此 海量 的 数据 面前 ,处 理 数 
据 的 效率 就 是 企业 的 生命 。 


1.2.4 大 数据 技术 


大 数据 处 理 的 关键 技术 一 般 包 括 : 大 数据 采集 ,大 数据 预 处 理 ,大 数据 存储 及 管理 ,大 
数据 分 析 及 挖掘、 大 数据 展现 和 应 用 。 

1. 大 数据 采集 技术 

数据 是 指 通 过 REID 射频 数据 、 传 感 器 数据 、 社 交 网 络 交 互 数据 及 移动 互联 网 数据 等 方 
式 获得 的 各 种 类 型 的 结构 化 、 半 结构 化 (或 称 之 为 弱 结 构 化 ) 及 非 结构 化 的 海量 数据 ,是 大 数 
据 知识 服务 模型 的 根本 。 重 点 要 突破 分 布 式 高 速 高 可 靠 数据 爬 取 或 采集 ,高速 数 据 全 映像 
等 大 数据 收集 技术 ;突破 高 速 数据 解析 、 转 换 与 装载 等 大 数据 整合 技术 ;设计 质量 评估 模型 ， 
开发 数据 质量 技术 。 

大 数据 采集 一 般 分 为 大 数据 智能 感知 层 和 基础 支撑 层 。 智 能 感知 层 主 要 包括 数据 传 感 
体系 、 网 络 通信 体系 、 传 感 适 配 体系 、 智 能 识别 体系 及 软 硬 件 资源 接 入 系统 ,实现 对 结构 化 、 
半 结 构 化 、 非 结构 化 的 海量 数据 的 智能 化 识别 定位、 跟踪 、 接 入 传输 、 信 号 转换 监控 、 初 步 
处 理 和 管理 等 ,必须 着 重 攻克 针对 大 数据 源 的 智能 识别 、 感 知 、 适 配 、 传 输 、 接 入 等 技术 。 基 
础 支撑 层 提供 大 数据 服务 平台 所 需 的 虚拟 服务 器 ,结构 化 、 半 结构 化 及 非 结 构 化 数据 的 数据 
库 及 物 联 网 络 资源 等 基础 支撑 环境 。 重 点 攻克 分 布 式 虚拟 存储 技术 ,大 数据 获取 、 存 储 、 组 
织 . 分 析 和 决策 操作 的 可 视 化 接口 技术 ,大 数据 的 网 络 传输 与 压缩 技术 ,大 数据 隐私 保护 技 
术 等 。 

2. 大 数据 预 处 理 技 术 

大 数据 预 处 理 主要 完成 对 已 接收 数据 的 辨析 抽取、 清洗 等 操作 。 

(1) 抽取 。 因 获取 的 数据 可 能 具有 多 种 结构 和 类 型 ,数据 抽取 过 程 可 以 帮助 我 们 将 这 

复杂 的 数据 转化 为 单一 的 或 者 便于 处 理 的 构 型 ,以 达到 快速 分 析 处 理 的 目的 。 

(2) 清洗 。 对 于 大 数据 并 不 全 是 有 价值 的 .有 些 数 据 并 不 是 人 们 所 关心 的 内 容 , 而 另 一 
些 数据 则 是 完全 错误 的 干扰 项 ,因此 要 对 数据 通过 过 滤 “ 去 品 " 提 取出 有 效 数据 。 

3. 大 数据 存储 及 管理 技术 

大 数据 存储 与 管理 要 用 存储 器 把 采集 到 的 数据 存储 起 来 ,建立 相应 的 数据 库 ,并 进行 管 
理 和 调用 ,重点 解决 复杂 结构 化 、 半 结构 化 和 非 结 构 化 大 数据 管理 与 处 理 技术 ,主要 解决 大 
数据 的 可 存储 、 可 表示 、 可 处 理 、 可 靠 性 及 有 效 传输 等 几 个 关键 问题 。 

(1) 开发 新 型 数据 库 技术 。 数 据 库 分 为 关系 型 数据 库 、 非 关系 型 数据 库 以 及 数据 库 缓 
存 系统 。 其 中 , 非 关系 型 数据 库 主要 指 的 是 NoSQL 数据 库 , 分 为 键 值 数据 库 、 列 存 数据 库 、 
图 存 数据 库 以 及 文档 数据 库 等 类 型 。 关 系 型 数据 库 包 含 了 传统 关系 数据 库 系统 和 
NewSQL 数据 库 。 

(2) 开发 大 数据 安全 技术 。 大 数据 安全 技术 包括 改进 数据 销毁 、 透 明 加 解密 、 分 布 式 访 
问 控制 、 数 据 审计 等 技术 ;突破 隐私 保护 和 推理 控制 .数据 真 伪 识别 和 取证 、 数 据 持 有 完整 性 
验证 等 技术 。 


4. 大 数据 分 析 及 挖 所 技术 

大 数据 分 析 及 挖掘 技术 包括 改进 已 有 数据 挖掘 和 机 器 学 习 技 术 ; 开 发 数据 网 络 挖 
据 、 特 异 群 组 挖掘 、 图 挖掘 等 新 型 数据 挖掘 技术 ;突破 基于 对 象 的 数据 连接 、 相 似 性 连接 
等 大 数据 融合 技术 ;突破 用 户 兴 趣 分 析 、 网 络 行为 分 析 、 情 感 语义 分 析 等 面向 领域 的 大 数 
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含 在 其 中 的 、 人 们 事先 不 知道 的 ,但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 数 据 挖掘 涉及 的 技 
术 方法 很 多 ,有 多 种 分 类 法 。 

根据 挖掘 任务 ,可 分 为 分 类 或 预测 模型 发 现 , 数 据 总 结 、 聚 类 .关联 规则 发 现 ,序列 模式 
发 现 , 依 赖 关系 或 依赖 模型 发 现 、 异 常 和 趋势 发 现 等 ;根据 挖掘 对 象 可 分 为 关系 数据 库 、 面 向 
对 象 数 据 库 、 空 间 数据 库 、 时 态 数 据 库 、 文 本 数据 源 、 多 媒体 数据 库 、 异 质数 据 库 、 遗 产 数据 库 
以 及 互联 网 Web。 

根据 挖掘 方法 ,可 粗 分 为 机 器 学 习 方 法 、 统 计 方 法 .神经 网 络 方法 和 数据 库 方法 。 在 机 
器 学 习 中 可 细 分 为 归纳 学 习 方 法 (决策 树 、 规 则 归纳 等 )、 基 于 范例 学 习 法 、 遗 传 算法 等 。 在 
统计 方法 中 可 细 分 为 回归 分 析 ( 多 元 回归 、 自 回归 等 )、 判 别 分 析 ( 贝 叶 斯 判别 、 费 菊 尔 判别 、 
非 参数 判别 等 ). 聚 类 分 析 ( 系 统 聚 类 、 动 态 聚 类 等 )、 探 索性 分 析 ( 主 元 分 析 法 、 相 关 分 析 法 
等 ) 等 。 

挖掘 任务 和 挖掘 方法 着 重 突破 以 下 方面 。 

(1) 可 视 化 分 析 。 数 据 可 视 化 无 论 对 于 普通 用 户 或 是 数据 分 析 专 家 ,都 是 最 基本 的 功 
能 。 数 据 图 像 化 可 以 让 数据 自己 说 话 , 让 用 户 直观 地 感受 到 结果 。 

(2) 数据 挖掘 算法 。 图 像 化 是 将 机 器 语言 翻译 给 人 看 ,而 数据 挖掘 就 是 机 器 的 母语 。 
通过 分 割 ,集群 .孤立 点 分 析 及 其 他 各 种 算法 让 人 们 精炼 数据 ,挖掘 价值 。 这 些 算法 一 定 要 
能 够 应 付 大 数据 的 量 , 同 时 还 要 具有 很 高 的 处 理 速 度 。 

(3) 预测 性 分 析 。 预 测 性 分 析 可 以 让 分 析 师 根据 图 像 化 分 析 和 数据 挖掘 的 结果 做 出 一 
些 前 脆性 判断 。 

(4) 语义 引擎 。 语 义 引 擎 需要 采用 人 工 智 能 技术 从 数据 中 主动 地 提取 信息 。 语 言 处 理 
技术 包括 机 器 翻译 、 情 感 分 析 、 和 与 情 分 析 、 智 能 输入 、 问 答 系统 等 。 

(5) 数据 质量 和 数据 管理 。 数 据 质量 与 管理 是 管理 的 最 佳 实践 , 透 过 标准 化 流程 和 机 
器 对 数据 进行 处 理 可 以 确保 获得 一 个 预 设 质量 的 分 析 结 果 。 

5 大 数据 展现 与 应 用 技术 

大 数据 技术 能 够 将 隐藏 于 海量 数据 中 的 信息 和 知识 挖掘 出 来 ,为 人 类 的 社会 经 济 活动 
提供 依据 ,从 而 提高 各 个 领域 的 运行 效率 ,大 大 提高 了 整个 社会 经 济 的 集约 化 程度 。 在 我 
国 , 大 数据 将 重点 应 用 于 商业 智能 、 政 府 决策 、 公 共 服 务 三 大 领域 。 例 如 ,商业 智能 技术 , 政 
府 决 策 技术 ,电信 数据 信息 处 理 与 挖掘 技术 ,电网 数据 信息 处 理 与 挖掘 技术 ,气象 信息 分 析 
技术 ,环境 监测 技术 , 警 务 云 应 用 系统 (道路 监控 ,视频 监控 ,网 络 监控 、 智 能 交通 、 反 电信 诈 
骗 .指挥 调度 等 公安 信息 系统 ) ,大 规模 基因 序列 分 析 比 对 技术 , Web 信息 挖掘 技术 ,多 媒体 
数据 并 行 化 处 理 技术 ,影视 制作 泻 染 技术 ,其 他 各 种 行业 的 云 计算 和 海量 数据 处 理应 用 技 
术 等 。 


1.2.5 行业 应 用 大 数据 实例 


关于 “啤酒 加 尿布 ”的 故事 想必 大 家 都 耳熟能详 了 ,下 面 介绍 几 个 更 有 新 意 、 更 典型 的 关 
于 大 数据 应 用 的 实例 ,来 帮助 大 家 更 清晰 地 理解 和 认识 大 数据 时 代 。 

1.“ 新 ”公司 耐克 

耐克 公司 凭借 一 种 名 为 Nike 十 的 新 产品 变 身 为 大 数据 营销 的 创新 公司 。 所 谓 Nike 十 ， 
是 一 种 “Nike 跑鞋 或 腕 带 十 传感器 "的 产品 ,只 要 运动 者 穿着 Nike 十 的 跑鞋 运动 ,iPod 就 可 
以 存储 并 显示 运动 日 期 ,时 间 、 距 离 ,热量 消耗 值 等 数据 。 用 户 上 传 数据 到 耐克 社区 ,就 能 和 
其 他 用 户 分享 这 些 数据 。 耐 克 公 司 和 Facebook 达成 协议 ,用 户 上 传 的 跑步 状态 会 实时 更 新 
到 账户 里 。 随 着 跑步 者 不 断 上 传 自己 的 跑步 路 线 , 耐 克 公 司 由 此 掌握 了 主要 城市 里 最 佳 跑 
步 路 线 的 数据 库 。 凭 借 运 动 者 上 传 的 数据 ,耐克 公司 已 经 成 功 创建 了 全 球 最 大 的 运动 网 上 
社区 ,超过 500 万 活跃 的 用 户 ,每 天 不 停 地 上 传 数据 ,耐克 公司 借 此 与 消费 者 建立 前 所 未 有 
的 牢固 关系 。 海 量 的 数据 同时 对 于 耐克 公司 了 解 用 户 习 惯 .改进 产品 .精准 投放 和 精准 营销 
又 起 到 了 不 可 替代 的 作用 。 因 为 顾客 跑步 停 下 来 休息 时 ,交流 最 多 的 就 是 装备 ,“ 什 么 追踪 
得 更 准 , 又 出 了 什么 更 炫 的 鞋子 ”。Nike 十 甚至 让 耐克 公司 掌握 了 跑步 者 最 喜欢 听 的 歌 是 
哪些 。 

分 析 师 称 ,Nike 十 的 会 员 数 在 2011 年 增加 了 55%。 其 中 ,耐克 公司 的 跑步 业务 收入 增 
长 了 30% ,达到 了 28 亿美 元 ,Nike 十 功 不 可 没 。 

2. 农场 云端 管理 服务 商 Farmeron 

Farmeron 旨 在 为 全 世界 的 农民 提供 类 似 于 Google Analytics 的 数据 跟踪 和 分 析 服 务 。 
农民 可 在 其 网 站 上 利用 这 款 软件 ,记录 和 跟踪 自己 饲养 畜牧 的 情况 ,包括 饲料 库存 .消耗 和 
花费 ,畜牧 的 出 生 、 死 亡 . 产 奶 ,还 有 农场 收 支 等 信息 。 其 可 贵 之 处 在 于 : Farmeron 帮 着 农 
场 主 将 支离破碎 的 农业 生产 记录 整理 到 一 起 ,用 先进 的 分 析 工 具 和 报告 有 针对 性 地 检测 分 
析 农 场 及 生产 状况 ,有 利于 农场 主 科学 地 制定 农业 生产 计划 。 

Farmeron 创建 于 克罗地亚 , 自 2011 年 11 月 成 立 至 今 ,Farmeron 已 经 在 14 个 国家 建 
立 了 农业 管理 平台 ,为 450 个 农场 提供 了 商业 监管 服务 。 公 司 在 2014 年 获得 了 140 万 美元 
的 融资 。 

3. Morton 牛排 店 的 品牌 认 知 

当 一 位 顾客 通过 推 特 社交 软件 向 位 于 芝加哥 的 牛排 连锁 店 订餐 并 送 餐 到 纽约 Newark 
机 场 (他 将 在 一 天 之 后 抵达 该 处 ) 时 ,Morton 就 开始 了 自己 的 社交 秀 。 首 先 ,Morton 要 分 析 
推 特 数据 ,确定 该 顾客 是 不 是 本 店 的 常客 ,是 否 是 推 特 的 常用 者 。 如 果 是 ,根据 客户 以 往 的 
订单 ,推测 出 其 所 乘 的 航班 ,然后 派出 一 位 身 着 燕尾 服 的 侍者 为 客户 提供 晚餐 。 

4. 产品 推荐 

下 面 来 看 一 则 《纽约 时 报 ? 报 道 的 新 闻 。 一 位 愤怒 的 父亲 跑 到 美国 Target 超市 投诉 他 
近期 收 到 超市 寄 给 他 大 量 的 婴儿 用 品 广告 ,而 他 的 女儿 还 只 不 过 是 个 高 中 生 , 但 一 周 以 后 这 
位 愤怒 的 父亲 再 次 光临 并 向 超市 道歉 ,因为 Target 发 来 的 婴儿 用 品 促销 广告 并 不 是 误 发 ， 
他 的 女儿 确实 怀孕 了 。《 纽 约 时 报 ) 的 这 则 故事 让 很 多 人 第 一 次 感受 到 了 变革 ,这 次 变革 和 
人 类 经 历 过 的 若干 次 变革 最 大 的 不 同 在 于 : 它 发 生 时 无 声 无 息 , 但 它 确 确实 实 改 变 了 人 们 


不 知 从 何 时 开始 ,淘宝 ,天 猫 ,京东 ,甚至 是 浏览 器 都 开始 为 人 们 推荐 商品 和 人 们 感 兴趣 
的 内 容 ,不 知 从 何 时 开始 人 们 习惯 了 这 种 推荐 方式 ,又 不 知 从 何 时 开始 ,推荐 的 内 容 变 得 更 
加 精确 。 

产品 推荐 是 Amazon 的 发 明 , 它 为 Amazon 等 电子 商务 公司 赢得 了 近 1/3 的 新 增 商 品 
交易 。 产 品 推荐 的 一 个 重要 方面 是 基于 客户 交易 行为 分 析 的 交叉 销售 。 根 据 客 户 信息 、 客 
户 交易 历史 、 客 户 购买 过 程 的 行为 轨迹 等 客户 行为 数据 以 及 同一 商品 其 他 访问 或 成 交 客 户 
的 客户 行为 数据 ,进行 客户 行为 的 相似 分 析 ,为 客户 推荐 商品 ,浏览 这 一 商品 的 客户 还 浏览 
了 哪些 商品 ,购买 这 一 产品 的 客户 还 购买 了 哪些 商品 .预测 客户 还 会 喜欢 哪些 商品 等 。 对 于 
领先 的 B2C 网 站 (如 京东 ,亚马逊 ,淘宝 等 ) ,这些 数 据 是 海量 的 。 

基于 大 数据 应 用 的 行业 实例 数不胜数 ,并 且 都 为 各 个 行业 带 来 可 观 的 效益 ,甚至 可 以 改 
变 游戏 规则 。 对 于 未 来 ,人 们 会 发 现在 电影 中 出 现 的 预测 犯罪 .智慧 城市 等 情景 都 会 由 于 大 
数据 处 理 技术 的 进步 一 一 实现 ,这 并 不 是 遥 不 可 及 的 梦想 。 


13 大 数据 系统 


当代 互联 网 技术 已 被 公认 为 继 农业 革 命 . 工 业 革 命 后 ,全 面 改变 人 类 社会 的 “第 三 次 革 
命 "。 其 中 ,大 数据 是 目前 互联 网 科技 最 前 沿 的 一 个 领域 。 这 是 一 个 信息 爆炸 的 时 代 , 人 类 
正 进 入 全 新 的 大 数据 时 代 ,数据 正在 不 断 地 借助 各 种 终端 涌 向 各 个 信息 系统 ,又 通过 这 些 信 
息 系统 分 发 到 世界 的 各 个 角落 。 这 些 数据 每 时 每 刻 都 从 各 个 不 同 的 角度 动态 反映 着 大 自然 
的 变化 ,也 动态 反映 着 人 与 他 人 、 人 与 自身 、 人 与 组 织 、 人 与 社会 的 形形色色 的 关系 。 人 们 几 
千年 来 都 是 通过 在 一 定 的 区 域内 、 假 定 相对 稳 态 的 一 段 时 间 内 不 断 地 实践 和 总 结 来 逐步 认 
识 世 界 和 改造 世界 的 ,而 进入 大 数据 时 代 之 后 ,人 们 发 现 可 以 借助 如 此 丰富 的 数据 ,在 一 个 
更 广阔 的 区 域 里 ,在 动态 变化 的 世界 里 重新 认识 世界 和 改造 世界 ,这 样 的 认识 更 加 全 面 ,这 
样 的 改造 更 加 准确 。 

面 对 这 场 “ 数 据 地 震 ”, 只 要 人 们 有 效 掌握 收集 数据 分 析 数 据 ` 利 用 数据 的 办 法 和 途径 ， 
就 能 在 海量 数据 中 去 伪 存 真 、 变 “ 数 ” 为 宝 。 所 以 人 们 急需 这 样 一 个 系统 ,将 数据 汇聚 起 来 ， 
加 以 分 析 和 人 处理, 将 其 中 有 价值 的 信息 分 析出 来 ,让 人 们 认 清 事物 的 全 局 、 预 测 未 来 的 变化 
趋势 。 这 个 系统 就 是 大 数据 系统 。 


1.3.1 设计 目标 和 原则 


1. 设计 目标 

大 数据 具有 数据 体 量 巨 大 、 类 型 繁多 、 价 值 密度 低 、 处 理 速 度 快 这 四 个 典型 特征 ,所 以 大 
数据 系统 中 无 论 是 在 体系 架构 设计 上 ,还 是 在 采集 ,存储 、 处 理 \ 传 递 . 备 份 等 功能 设计 上 ,都 
要 有 和 以 往 不 同 的 目标 要 求 。 大 数据 系统 的 核心 设计 目标 有 以 下 几 点 要 求 。 

(1) 可 以 存储 海量 数据 。 当 今 是 一 个 信息 大 爆炸 的 时 代 , 网 络 的 广泛 使 用 更 加 剧 了 信 
息 爆 炸 的 速度 。 信 息 资源 的 爆炸 性 增长 .对 存储 系统 在 存储 容量 、 数 据 可 用 性 等 方面 提出 了 
越 来 越 高 的 要 求 。 所 以 系统 的 存储 功能 在 设计 时 需 考虑 能 够 存储 随时 间 变 化 不 断 增 大 的 数 
据 ; 能 够 支撑 多 种 数据 类 型 的 存储 (类 型 可 以 是 结构 化 、 半 结构 化 和 非 结 构 化 的 ) ;存储 时 能 
够 适应 很 大 的 数据 个 体 ,也 可 以 适应 很 小 的 数据 个 体 。 


(2) 可 以 进行 高 速 处 理 。 系 统 不 仅 可 以 存储 海量 的 数据 ,还 需 保 证 数据 规模 不 断 增 大 
时 或 数据 量 短 时 间 内 快速 增长 时 ,其 处 理 速度 不 受 这 些 影响 ,依然 能 够 符合 用 户 对 响应 速度 
的 要 求 。 

(3) 可 以 快速 开发 出 并 行 服务 。 系 统 必须 提供 并 行 服务 的 开发 框架 ,让 开发 人 员 
能 够 依据 此 框架 迅速 开发 出 面向 大 数据 的 程序 代码 ,并 可 在 动态 分 布 的 集群 上 实现 并 
行 计算 。 

(4) 可 以 运行 在 廉价 机 器 搭建 的 集群 上 。 廉 价 是 大 数据 系统 最 重要 的 一 个 目标 。 系 统 
可 以 安装 并 运行 在 廉价 的 机 器 上 ,还 需 具 有 将 规模 庞大 的 廉价 机 器 组 成 集群 并 协调 工作 的 
功能 。 

2. 设计 原则 

在 系统 设计 目标 的 实现 过 程 中 ,系统 还 需 遵循 以 下 设计 原则 。 

(1) 实用 性 。 系 统 必 须 具 有 实用 性 ,其 实用 性 体现 在 : 四 既 可 以 满足 几 个 节点 构成 的 


小 规模 集群 ,也 可 以 满足 有 上 万 节点 的 大 规模 集群 ; 四 系统 在 一 个 节点 上 安装 完 后 ,可 以 同 
构 地 快速 复制 到 多 个 节点 上 ; 四 系统 可 以 在 单 节 点 上 模拟 独立 运行 和 伪 分 布 运 行 ,以 便 程 


序 的 开发 和 调试 ; 四 系统 可 以 在 开源 的 通信 系统 上 建立 开源 的 操作 系统 ; @ 系 统 必须 支持 
多 种 协议 格式 ,允许 用 户 基 于 这 些 协议 与 系统 进行 交互 。 

(2) 可 靠 性 。 可 靠 性 是 系统 运行 时 必须 具有 的 重要 属性 之 一 。 在 设计 时 要 减少 单 点 故 
障 的 存在 ,对 可 能 存在 单 点 故障 的 环节 ,在 设计 上 要 尽 可 能 减少 其 对 整个 系统 的 影响 。 当 核 
心 节点 出 现 故障 时 ,能 够 迅速 切换 到 备份 节点 ; 当 计算 节点 出 现 故障 时 ,控制 节点 可 将 任务 
分 发 到 邻近 节点 上 。 

(3) 安全 性 。 数 据 是 系统 中 最 重要 的 核心 资产 ,不 允许 因 节点 故障 而 造成 丢失 ,同时 还 
要 确保 数据 的 完整 性 。 

CA) 可 扩展 性 。 系 统 应 允许 集群 内 的 节点 进行 增加 和 减少 ,并 且 主 控 节 点 可 以 智能 感知 
到 节点 的 增加 和 减少 ; 当 原 节点 因 老 化 被 替换 时 , 需 提供 方法 将 节点 的 数据 迁移 到 新 节点 上 且 
不 破坏 数据 的 完整 性 ;用 户 可 以 根据 内 容 类 型 的 不 同 , 采 用 不 同 的 编码 方式 来 新 增 数据 类 型 。 

(5) 完整 性 。 这 里 的 完整 性 不 是 指数 据 的 完整 性 ,而 是 指 系统 功能 的 完整 性 。 大 数据 
系统 必须 具有 大 数据 采集 、 存 储 、 开 发 分析、 控制 .呈现 等 涉及 大 数据 处 理 全 生命 周期 的 子 
系统 或 功能 模块 ,能 够 让 客户 基于 大 数据 系统 完成 其 应 用 。 


1.3.2 当前 大 数据 系统 


当下 有 两 个 比较 火 的 词汇 ,一 个 是 “ 云 计算 ”, 一 个 是 “大 数据 ”。 作 为 热门 词汇 ,“ 云 计 
算 ” 和 “大 数据 ”到底 是 什么 ,它们 在 概念 上 有 很 多 交叉 ,人 们 会 对 这 两 个 词汇 产生 混淆 。 其 
实 这 两 个 词汇 是 讲 一 个 事物 的 一 体 两 面 性 ,“ 云 计算 ”侧重 于 让 单个 节点 的 计算 能 力 最 大 化 ， 
而 “大 数据 ?侧重 于 让 数据 价值 最 大 化 。 正 所 谓 * 云 计算 ? 讲 的 是 技术 ,而 “大 数据 ? 讲 的 是 效 
用 ,最 后 终究 是 大 数据 占 了 上 风 。 

如 果 回 归 到 技术 是 为 了 创造 价值 这 一 基点 上 ,可 以 发 现 大 数据 系统 并 不 陌生 ,在 现实 世 
界 中 早已 存在 ,例如 谷歌 (Google) 的 搜索 引擎 就 借助 了 大 数据 系统 取得 了 空前 的 成 功 。 成 
功 的 秘诀 是 视角 的 不 同 . 谷 歌 (Google) 是 从 上 往 下 看 ,为 全 球 用 户 提供 跨 领 域 的 搜索 服务 ; 


而 传统 的 信息 系统 是 从 下 往 上 看 ,为 领域 用 户 提 供 某 个 领域 的 信息 服务 。 谷 歌 搜索 引擎 的 
关系 模型 如 图 1-1 所 示 。 


全 球 用 户 
跨 领域 搜索 服务 
a 1 ee 
A 领域 的 B 领 域 的 ee XRH 
信息 服务 信息 服务 信息 服务 
| | | 
A 领域 A 领域 A 领域 
用 户 用 户 人 用 户 


图 1-1 谷歌 搜索 引擎 的 关系 模型 


1. Google 

Google 是 大 数据 时 代 的 黄 基 者 ,其 大 数据 技术 架构 一 直 是 互联 网 公司 争 相 学 习 和 研究 
的 重点 。 它 拥有 全 球 最 强大 的 搜索 引擎 ,为 全 球 用 户 提供 基于 海量 数据 的 实时 搜索 服务 。 
Google 为 了 解决 海量 数据 的 存储 和 快速 处 理 问题 ,用 了 一 种 简单 而 又 高 效 的 系统 ,让 多 达 

百 万 台 廉 价 的 计算 机 协同 工作 ,共同 完成 海量 数据 的 存储 和 快速 处 理 。 这 种 系统 被 Google 
称 为 云 计 算 , 现 在 看 来 应 该 叫 大 数据 系统 。 

Google 的 大 数据 系统 的 三 大 核心 技术 分 别 是 Google 文件 系统 (GFS) ,分 布 式 计算 编 
程 模式 (MapReduce) 和 分 布 式 结构 化 数据 存储 系统 (BigTable) 。GFS 提供 大 数据 的 存储 节 
访问 服务 ,MapReduce 可 以 很 容易 地 实现 并 行 计算 ,BigTable 可 以 很 方便 地 管理 和 组 织 结 
构 化 大 数据 。 

1) GFS 

GFS 是 一 个 可 扩展 的 分 布 式 文件 系统 ,用 于 大 型 的 ,分 布 式 的 、 对 大 量 数据 进行 访问 的 
应 用 。 它 与 MapReduce 及 BigTable 结合 得 非常 紧密 ,是 基础 的 底层 系统 。 它 运行 于 廉价 
的 普通 硬件 上 ,提供 容错 功能 。GFS 系统 将 整个 系统 的 节点 分 为 Client (客户 端 )、Master 
( 主 服务 器 ) 和 Chunk Server( 数 据 块 服务 器 ) 三 类 角色 。 

Client 是 GFS 提供 给 应 用 程序 的 访问 接口 , 它 是 一 组 专用 接口 ,不 遵守 POSIX 规范 ， 
以 库 文件 的 形式 提供 。 应 用 程序 直接 调用 这 些 库 函数 ,并 与 该 库 链 接 在 一 起 。 

Master 是 GFS 的 管理 节点 ,在 逻辑 上 只 有 一 个 , 它 保存 系统 的 元 数据 ,负责 整个 文件 
系统 的 管理 ,是 GFS 文件 系统 的 调度 中 心 。 

Chunk Server 负责 具体 的 存储 工作 。 数 据 以 文件 的 形式 存储 在 Chunk Server 上 ， 
Chunk Server 的 机 器 个 数 可 以 有 多 个 ， 它 的 数目 直接 决定 了 GFS 系统 的 规模 。GFS jia 
件 按照 固定 大 小 进行 分 块 ,默认 分 块 大 小 是 64MB, 每 一 块 称 为 一 个 Chunk( 数 据 块 ) ,每 
Chunk 都 有 一 个 对 应 的 索引 号 (Index) 。 

客户 端 在 访问 GFS 时 ,首先 访问 Master 主 服务 器 ,获取 将 要 与 之 进行 交互 的 Chunk 
Server 信息 ,然后 客户 端 直接 访问 这 些 Chunk Server 完成 数据 存 取 。GFS 的 这 种 设计 方法 
实现 了 控制 流 和 数据 流 的 分 离 。Client 与 Master 之 间 只 有 控制 流 ,而 无 数据 流 , 这 样 就 极 


大 地 降低 了 Master 的 负载 ,使 之 不 成 为 系统 性 能 的 一 个 瓶颈 。Client 与 Chunk Server 之 
间 直 接 传输 数据 流 , 同 时 由 于 文件 被 分 成 多 个 Chunk 进行 分 布 式 存储 ,Client 可 以 同时 访 
问 多 个 Chunk Server, 从 而 使 得 GFS 系统 的 1/0 高 度 并 行 ,系统 整 体 性 能 得 到 提高 。 

GFS 的 这 种 设计 模式 ,在 满足 实现 大 数据 存储 与 处 理 的 目标 的 同时 ,做 到 了 在 一 定 规 
模 下 使 成 本 降 到 最 低 ,而 且 保 证 了 系统 的 可 靠 性 和 系统 性 能 。 

2) MapReudce 

MapReudce 是 Google 提出 的 一 个 处 理 大 数据 的 并 行 编程 模式 ,主要 用 于 大 数据 (大 于 
1TB) 的 并 行 计算 。Map( 映 射 )\ Reduce( 化 简 ) 都 是 从 函数 式 编程 语言 和 矢量 编程 语言 借鉴 
来 的 ,这 种 编程 模式 特别 适用 于 非 结 构 化 和 结构 化 的 海量 数据 的 搜索 挖掘、 分 析 和 智能 机 
器 学 习 。 

与 传统 的 分 布 式 程序 相 比 , MapReduce 封装 了 并 行 处 理 、 容 错 处 理 、 本 地 化 计算 、 人 负载 
均衡 等 细节 。 通 过 MapReduce 提供 的 接口 ,可 以 原始 数据 | 原始 数据 。。 原始 数据 WM 
轻易 地 把 计算 处 理 代码 自动 分 发 到 发 布 的 节点 进 
行 并 行 处 理 , 还 可 以 通过 普通 PC 构成 巨大 集群 来 
达到 极 高 的 性 能 。 

MapReduce 的 运行 模型 由 M 个 Map 函数 操 
MERI R I Reduce 函数 操作 构成 ,如 图 1-2 所 示 。 

简单 地 说 ,一 个 Map 函数 就 是 对 一 部 分 原始 
数据 进行 指定 的 操作 。 每 个 Map 操作 都 针对 不 同 
的 原始 数据 ,因此 Map 与 Map 之 间 是 互相 独立 
的 ,这 就 使 得 它们 可 以 充分 并 行 化 。 一 个 Reduce 
操作 就 是 对 每 个 Map 所 产生 的 一 部 分 中 间 结 果 进 
行 合 并 操作 ,每 个 Reduce 所 处 理 的 Map 中 间 结 果 
是 互 不 交叉 的 ,所 有 Reduce 产生 的 最 终结 果 经 过 
简单 连接 就 形成 了 完整 的 结果 集 , 因 此 Reduce 也 
可 以 在 并 行 环境 下 执行 。 

例如 ,用 MapReduce 来 计算 一 个 大 型 文本 文件 中 各 个 单词 出 现 的 次 数 , Map 的 输入 参 
数 指明 了 需要 处 理 哪 部 分 数据 ,以 二 在 文本 中 的 起 始 位 置 ,需要 处 理 的 数据 长 度 二 表示 ,经 
过 Map 处 理 , 形 成 一 批 中 间 结 果 二 单词 ,出 现 次 数 二 >。 而 Reduce 函数 则 是 把 中 间 结 果 进 行 
处 理 , 将 相同 单词 出 现 的 次 数 进行 累加 ,得 到 每 个 单词 总 的 出 现 次 数 。 

Map 是 把 原始 数据 的 键 值 对 二 k,v 二 变 成 二 kl1,v1 二 的 另 一 个 键 值 对 ,这 种 转换 关系 与 
Map 的 函数 处 理 有 关 。 假 设 Map 函数 处 理 的 原始 键 值 对 是 二 序号 ,语句 二 ,而 输出 的 键 值 
对 是 二 单词 ,单词 在 语句 中 出 现 的 次 数 二 ,这 就 说 明 Map 函数 的 算法 对 语句 按 单词 进行 拆 
分 ,并 给 出 单词 在 语句 中 的 出 现 次 数 。 

Reduce 在 操作 前 ,系统 会 先 将 Map 的 中 间 结 果 进 行 同类 项 的 合并 处 理 。 也 就 是 
说 ,Reduce 处 理 的 原始 键 值 对 二 k,[vl ,v2,v3...] 记 ,而 输出 的 键 值 对 就 要 看 Reduce 函数 
的 算法 对 这 些 v 值 进 行 了 什么 处 理 。 例 如 ,对 某 个 单词 在 文章 中 出 现 的 次 数 进行 计算 ,那么 
就 将 这 个 单词 在 所 有 语句 中 出 现 的 次 数 相 加 ,最 终 输出 的 是 二 单词 ,在 文章 中 出 现 的 
次 数 二 。 


结果 1 HRR 
图 1-2 MapReduce 运行 模型 


3) BigTable 

BigTable 是 一 个 为 管理 大 规模 结构 化 数据 而 设计 的 分 布 式 存储 系统 ,可 以 扩展 到 拍 字 
节 (PB) 级 数据 和 上 千 台 服务 器 。Google 的 很 多 数据 ,包括 Web 索引 、 卫 星 图 像 数据 等 在 内 
的 海量 结构 化 和 半 结 构 化 数据 都 存储 在 BigTable 中 。 

BigTable 是 通过 一 个 行 关 键 字 、 一 个 列 关 键 字 和 一 个 时 间 惟 进行 索引 的 。BigTable 对 
存储 在 其 中 的 数据 不 做 任何 解析 ,一 律 将 其 看 成 字符 串 , 具 体 的 数据 结构 实现 由 用 户 自行 
处 理 。 

(1) 行 。 行 可 以 是 任意 的 字符 串 ,但 是 大 小 不 能 超过 64KB。BigTable 通过 行 关 键 字 的 
字典 顺序 来 组 织 数据 。 表 中 的 每 个 行 都 可 以 动态 分 区 。 每 个 分 区 称 为 一 个 Tablet。Tablet 
是 数据 分 布 和 负载 均衡 调整 的 最 小 单位 。 

(2) 列 。 列 关键 字 组 成 的 集合 称 为 * 列 族 ”。 列 族 是 访问 控制 的 基本 单位 。 列 族 在 使 用 
之 前 必须 先 创建 ,然后 才能 在 列 族 中 任何 的 列 关 键 字 下 存放 数据 ; 列 族 创建 后 ,其 中 的 任何 
一 个 列 关 键 字 下 都 可 以 存放 数据 。 

列 关 键 字 的 命名 语法 为 列 族 : 限定 词 。 列 族 的 名 字 必 须 是 可 打印 的 字符 串 , 而 限定 词 
的 名 字 可 以 是 任意 的 字符 串 。 

(3) WER., E BigTable 中 , 表 的 每 一 个 数据 项 都 可 以 包含 同一 份 数据 的 不 同 版 本 ， 
不 同 版 本 的 数据 通过 时 间 惟 来 索引 。BigTable 时 间 戳 的 类 型 是 64 位 整 型 。 数 据 项 中 ,不 
同 版 本 的 数据 按照 时 间 惟 倒序 排序 , 即 最 新 的 数据 排 在 最 前 面 。 

BigTable 由 客户 端 \ 主 服务 器 和 子 表 服 务 器 三 个 部 分 构成 。 锁 打开 以 后 ,客户 端 就 可 
以 和 子 表 服 务 器 进行 通信 。 主 服务 主要 进行 一 些 元 数据 的 操作 以 及 解决 子 表 服 务 器 之 间 的 
负载 调度 问题 ,实际 的 数据 是 存储 在 子 表 服 务 器 上 的 。 

主 服 务 器 的 作用 包括 新 子 表 分 配 、 子 表 服 务 器 的 状态 监控 和 子 服 务 器 之 间 的 负载 均衡 。 
子 表 服务 器 上 的 操作 主要 涉及 子 表 的 定位 、 分 配 以 及 子 表 数 据 的 最 终 存 储 。 

2. Hadoop 

Hadoop 是 一 个 开源 分 布 式 计算 平台 。 用 户 可 以 利用 Hadoop 轻松 地 组 织 计 算 机 资源 ， 
从 而 搭建 自己 的 分 布 式 计算 平台 ,并 且 可 以 充分 利用 集群 的 计算 和 存储 能 力 , 完 成 海量 数据 
的 处 理 。Hadoop 已 广泛 地 被 企业 用 于 搭建 大 数据 库 系统 , 据 不 完全 统计 ,全 球 已 经 有 数 以 
万 计 的 Hadoop 系统 被 安装 和 使 用 ,国内 知名 的 中 国 移动 .百度 .阿里 都 在 大 规模 地 使 用 
Hadoop 系统 。 随 着 互联 网 的 不 断 发 展 ,新 的 业务 模式 还 将 不 断 涌现 , Hadoop 的 应 用 也 会 
从 互联 网 领域 向 电信 电子 商务 .银行 .生物 制药 等 领域 拓展 。 

Hadoop 是 Apache 组 织 正在 推进 的 项 目 。 这 个 项 目 主要 由 两 大 部 分 的 子 项 目 构成 ,一 
个 是 基础 部 分 , 另 一 个 是 配套 部 分 。 

1) 基础 部 分 

(1) Hadoop Common。Hadoop Common 是 支撑 Hadoop 的 公共 部 分 ,包括 文件 系统 、 
远程 过 程 调用 RPC 和 序列 化 函数 库 等 。 

(2) HDFS。HDFS 是 可 以 提供 高 吞吐 量 的 可 靠 分 布 式 文件 系统 ,是 Google GFS 的 开 

(3) MapReduce, MapReduce 是 大 型 分 布 式 数据 处 理 模 型 ,是 Google MapReduce 的 
开源 实现 。 


2) 配套 部 分 

(1) HBase。HBase 是 支持 结构 化 数据 存储 的 分 布 式 数据 库 , 是 Google BigTable 的 开 
源 实现 。 

(2) Hive。Hive 是 提供 数据 摘要 和 查询 功能 的 数据 仓库 。 

(3) Pig。Pig 是 在 MapReduce 上 构建 的 一 种 脚本 式 开 发 方式 ,大 大 简化 了 MapReduce 
的 开发 工作 。 

(4) Cassandra, Cassandra 是 由 Facebook 支持 的 开源 、 高 可 扩展 分 布 式 数 据 库 ,是 
Amazon 库 层 架构 Dynamo 的 全 分 布 和 Google BigTable 的 列 式 数据 存储 模型 的 有 机 结合 。 

(5) Chukwa。Chukwa 是 用 来 管理 大 型 分 布 式 系统 的 数据 采集 系统 。 

(6) Zookeeper, Zookeeper 用 于 解决 分 布 式 系 统 中 一 致 性 问题 ,是 Google Chubby 的 
开源 实现 。 


14 大 数据 与 企业 


1.4.1 大 数据 对 企业 的 挑战 性 


大 数据 ,可 谓 当 下 IT 领域 最 为 时 髦 的 词 ,简单 说 就 是 从 各 种 数据 中 快速 获取 价值 信息 
的 能 力 , 它 不 只 是 一 个 词汇 ,更 是 一 门 技术 ,代表 一 个 产业 时 代 。 而 中 国 作为 世界 上 人 口 最 
多 .GDP 排名 第 二 的 国家 ,成 立 “ 大 数据 国家 队 ” 是 非常 及 时 的 。 大 数据 的 精髓 在 于 “大 ”, 它 
不 是 抽样 而 是 全 样 , 它 不 是 盲人 摸 到 的 象 腿 或 者 是 象 鼻 子 ,而 是 整个 大 象 本 身 , 大 数据 的 精 
妙 之 处 在 于 用 的 人 越 多 越 增值 。 通 过 这 样 一 个 模糊 的 宏观 判断 ,能 够 完成 一 个 精准 的 个 体 
推荐 ,从 而 会 让 整个 生产 效率 得 到 极 大 提高 。 

不 过 对 于 一 个 企业 而 言 ,大 数据 作为 一 个 新 生 领 域 , 尽 管 大 数据 意味 着 大 机 遇 , 拥 有 巨 
大 的 应 用 价值 ,但 同时 也 遭遇 工程 技术 、 管 理 政策 .人 才 培 养 ,资金 投入 等 诸多 领域 的 大 挑 
战 。 只 有 解决 这 些 基础 性 的 挑战 问题 ,才能 充分 利用 这 个 大 机 遇 , 让 大 数据 为 企业 为 社会 充 
分 发 挥 与 贡献 最 大 价值 。 

1. 数据 来 源 错综复杂 

丰富 的 数据 源 是 大 数据 产业 发 展 的 前 提 , 而 我 国 数字 化 的 数据 资源 总 量 远 远 低 于 欧美 ， 
每 年 新 增 数据 量 仅 为 美国 的 7% ,欧洲 的 12% ,其 中 政府 和 制造 业 的 数据 资源 积累 远 远 落 后 
于 国外 。 就 已 有 的 数据 资源 来 说 ,还 存在 标准 化 低 、 准 确 性 差 ,完整 性 低 、 利 用 价值 不 高 的 情 
况 ,这 大 大 降低 了 数据 的 价值 。 

当前 ,几乎 任何 规模 企业 ,每 时 每 刻 都 在 产生 大 量 的 数据 ,但 这 些 数 据 如 何 归 集 、 提 炼 始 
终 在 困扰 着 人 们 。 而 大 数据 技术 的 意义 确实 不 在 于 掌握 规模 庞大 的 数据 信息 ,而 在 于 对 这 
些 数据 进行 智能 处 理 , 从 中 分 析 和 挖掘 出 有 价值 的 信息 ,但 前 提 是 如 何 获取 大 量 有 价值 的 
数据 。 

未 来 ,数据 采集 是 一 个 很 大 的 市 场 ,因为 分 析 的 数据 模型 可 以 根据 需求 和 思维 制作 ,但 
所 有 的 前 提 是 采集 的 数据 要 准 , 现 在 的 问题 一 个 是 采集 不 到 ,一 个 是 采集 错 了 ,还 有 一 个 是 
采集 效率 受到 网 络 带 宽 限制 ,这 几 个 都 做 不 到 的 话 数据 价值 很 难 用 起 来 。 

大 数据 时 代 ,需要 更 加 全 面 的 数据 来 提高 分 析 预 测 的 准确 度 , 因 此 就 需要 更 多 便捷 、 廉 


价 、 自 动 的 数据 生产 工具 。 除 了 人 们 在 网 上 使 用 的 浏览 器 正在 有 意 或 者 无 意 地 记载 着 个 人 
的 信息 数据 之 外 ,手机 包括 各 种 智能 手机 和 智能 手表 等 各 种 可 穿戴 设备 也 在 无 时 无 刻 地 产 
生 着 数据 ,就 连 家 里 的 路 由 器 .电视 机 、 空 调 、 冰 箱 、 饮 水 机 、 净 化 器 等 也 开始 越 来 越 智能 化 并 
且 具 备 了 联网 功能 ,这 些 家 用 电器 在 更 好 地 服务 于 人 们 的 同时 ,也 在 产生 着 大 量 的 数据 ,其 
至 人 们 出 去 逛街 ,商户 的 WiFi, 运 营 商 的 3G 网 络 ,无 处 不 在 的 摄像 头 电 子 眼 ,百货 大 楼 的 自 
助 屏幕 ,银行 的 ATM, 加 油 站 以 及 遍布 各 个 便利 店 的 刷卡 机 等 也 都 在 产生 着 数据 。 

随 着 移动 互联 、 云 计算 等 技术 的 飞速 发 展 ,无 论 何 时 何 地 ,手机 等 各 种 网 络 入 口 以 及 无 
处 不 在 的 传感器 等 ,都 会 对 个 人 数据 进行 采集 、 存 储 、 使 用 、 分 享 ,而 这 一 切 大 都 是 在 人 们 并 
不 知晓 的 情况 下 发 生 。 人 们 的 一 举 一 动 .地理 位 置 , 都 会 被 记录 下 来 ,成 为 海量 无 序数 据 中 
的 一 个 数列 ,和 其 他 数据 进行 整合 分 析 。 

比如 , 当 用 手机 扫描 二 维 码 ,并 将 其 用 微 博 转发 的 时 候 , 转 发 者 的 消费 习惯 、 偏 好 ,甚至 
其 社交 圈子 的 信息 ,就 已 经 被 商家 的 大 数据 分 析 工 具 捕 获 。 大 数据 平台 在 提供 服务 的 同时 ， 
也 在 时 刻 收集 着 用 户 的 各 种 个 人 信息 : 消费 习惯 \ 阅 读 习惯 ,甚至 生活 习惯 。 这 些 数 据 , 一 
方面 给 入 们 带 来 了 诸多 便利 ;但 另 一 方面 ,由 于 数据 的 管理 还 存在 漏洞 ,那些 发 布 出 去 或 存 
储 起 来 的 海量 信息 ,也 很 容易 被 监视 和 窃取 。 

大 数据 散发 出 不 可 估量 的 商业 价值 。 但 让 人 感到 不 安 的 是 ,信息 采集 手段 越 来 越 高 超 、 
便捷 和 隐藏 ,对 公民 个 人 信息 的 保护 ,无论 在 技术 手段 还 是 法 律 支撑 都 依然 捉襟见肘 。 人 们 
面临 的 不 仅 是 无 休止 的 骚扰 ,更 可 能 是 各 种 犯罪 行为 的 威胁 。 大 数据 时 代 , 谁 来 保护 公民 的 
个 人 隐私 ? 既是 每 个 人 都 应 当 思考 的 问题 ,也 是 政府 部 门 不 可 推 印 的 责任 。 

2. 数据 挖 所 分 析 模 型 的 建立 

步 人 大 数据 时 代 , 人 们 纷纷 在 谈论 大 数据 ,似乎 这 已 经 演化 为 新 的 潮流 趋势 。 数 据 比 以 
往 任何 时 候 都 更 加 根植 于 人 们 生活 中 的 每 个 角落 。 人 们 试图 用 数据 去 解决 问题 、 提 高 生活 
IKF ,促进 新 的 经 济 繁荣 。 人 们 纷纷 流露 出 对 大 数据 以 及 对 大 数据 分 析 技 术 的 高 度 期 待 。 
然而 ,关于 大 数据 分 析 ,虽然 人 们 已 充分 认识 大 数据 的 价值 ,但 缺少 对 大 数据 的 实际 运用 模 
式 和 方法 。 造 成 这 种 窘境 的 原因 主要 有 两 点 : 对 于 大 数据 分 析 的 价值 逻辑 尚 缺乏 足够 深 
刻 的 洞察 ; @ 大 数据 分 析 中 的 某 些 重 大 事件 或 技术 还 不 成 熟 。 大 数据 时 代 下 数据 的 海量 增 
长 ,缺乏 大 数据 分 析 光 辑 以 及 大 数据 技术 还 有 待 发 展 , 正 是 大 数据 时 代 下 我 们 面临 的 挑战 。 

大 数据 的 大 ,一 般 人 认为 指 的 是 它 数 据 规模 的 海量 。 随 着 人 类 在 数据 记录 、 获 取 及 传输 
方面 的 技术 革命 ,造成 了 数据 获得 的 便捷 与 低 成 本 ,这 便 使 原 有 的 以 高 成 本 方式 获得 的 描述 
人 类 态度 或 行为 的 ,数据 有 限 的 小 数据 已 然 变 成 了 一 个 巨大 的 海量 规模 的 数据 包 。 这 其 实 
是 一 种 片面 认识 。 其 实 ,前 大 数据 时 代 也 有 海量 的 数据 集 , 但 由 于 其 维度 的 单一 ,以 及 和 人 
或 社会 有 机 活动 状态 的 剥离 ,而 使 其 分 析 和 认识 真相 的 价值 极为 有 限 。 大 数据 的 真正 价值 
不 在 于 它 的 大 ,而 在 于 它 的 全 面 , 即 空间 维度 上 的 多 角度 、 多 层次 信息 的 交叉 浮现 ;时 间 维度 
上 的 与 人 或 社会 有 机 体 的 活动 相关 联 信息 的 持续 呈现 。 

另外 ,要 以 低 成 本 和 可 扩展 的 方式 处 理 大 数据 ,这 就 需要 对 整个 IT 架构 进行 重 构 , 开 
发 先进 的 软件 平台 和 算法 。 这 方面 ,国外 又 一 次 走 在 我 们 前 面 。 特 别 是 近年 来 以 开源 模式 
发 展 起 来 的 Hadoop 等 大 数据 处 理 软件 平台 ,及 其 相关 产业 已 经 在 美国 初步 形成 。 而 我 国 
数据 处 理 技术 基础 薄弱 .总 体 上 以 跟随 为 主 , 难 以 满足 大 数据 大 规模 应 用 的 需求 。 如 果 把 大 
数据 比 作 石油 , 那 数 据 分 析 工 具 就 是 勘探 钻井 、 提 炼 .加 工 的 技术 。 我 国 必须 掌握 大 数据 关 


键 技术 ,才能 将 资源 转化 为 价值 。 应 该 说 ,要 迈 过 这 道 坎 ,开源 技术 为 人 们 提供 了 很 好 的 
基础 。 

因此 ,现在 已 经 有 很 多 企业 开始 意识 到 ,要 想 真正 在 Hadoop 平台 上 做 数据 分 析 、 数 据 
挖掘 的 应 用 ,有 两 种 选择 : 要 么 就 是 交 给 一 个 懂 数 据 、 懂 分 析 、 懂 编程 又 要 有 技巧 的 技术 团 
队 来 操作 ;要 么 就 是 选择 某 家 商业 公司 推出 的 成 熟 的 大 数据 平台 。 

总 而 言 之 ,目前 尽管 计算 机 智能 化 有 了 很 大 进步 ,但 还 只 能 针对 小 规模 、 有 结构 或 类 结 
构 的 数据 进行 分 析 , 谈 不 上 深层 次 的 数据 挖掘 , 现 有 的 数据 挖掘 算法 在 不 同行 业 中 还 难以 
通用 。 

3. 数据 开放 与 隐私 的 权衡 

数据 应 用 的 前 提 是 数据 开放 ,这 已 经 是 共识 。 有 专业 人 士 指出 ,中 国人 口 居 世 界 首位 ， 
但 2010 年 中 国 新 存储 的 数据 为 250PB, 仅 为 日 本 的 60% 和 北美 的 7%。2012 年 中 国 的 数 
据 存储 量 达到 64EB, 其 中 55% 的 数据 需要 一 定 程度 的 保护 ,然而 目前 只 有 不 到 一 半 的 数据 
得 到 保护 。 

美国 的 数据 开放 程度 较 高 。 美 国政 府 提供 政策 和 经 费 保障 ,使 数据 信息 中 心 群 成 为 国 
家 信息 生产 和 服务 基地 ,保障 数据 信息 供给 不 断 ,利用 网 络 把 数据 和 信息 最 便捷 、 及 时 地 送 
到 包括 科学 家 、 政 府 职员 、 公 司职 员 、 学 校 师 生 在 内 所 有 公民 的 桌 上 和 家 庭 中 ,把 全 社会 带 进 
了 信息 化 时 代 。 

纵 观 国内 ,对 我 国政 府 ,企业 和 行业 的 信息 化 系统 建设 往往 缺少 统一 规划 和 科学 论证 ， 
系统 之 间 缺 乏 统一 的 标准 ,形成 了 众多 “信息 孤岛 ”而且 受 行政 垄断 和 商业 利益 所 限 ,数据 
开放 程度 较 低 ,以 邻 为 罕 、 共 享 难 , 这 给 数据 利用 造成 极 大 障碍 。 制 约 我 国 数据 资源 开放 和 
共享 的 一 个 重要 因素 是 政策 法 规 不 完善 ,大 数据 挖掘 缺乏 相应 的 立法 ,毕竟 我 国 还 没有 国家 
层面 的 专门 适合 数据 共享 的 国家 法 律 。 无 法 既 保 证 共享 又 防止 滥用 ,一 方面 缺少 有 关 使 用 
公共 数据 的 政策 ; 另 一 方面 有 关 数 据 保护 和 隐私 保护 方面 的 制度 不 完善 ,两 者 都 抑制 了 开放 
大 数据 的 积极 性 。 因 此 ,建立 一 个 良性 发 展 的 数据 共享 生态 系统 ,是 我 国 大 数据 发 展 中 骂 待 
解决 的 一 个 问题 。 

开放 与 隐私 如 何平 衡 , 亦 是 一 大 难题 。 任 何 技术 都 是 双 刃 剑 , 大 数据 也 不 例外 。 如 何在 
推动 数据 全 面 开放 、 应 用 和 共享 的 同时 有 效 地 保护 公民 ,企业 隐私 ,逐步 加 强 隐私 立法 ,将 是 
大 数据 时 代 的 一 个 重大 挑战 。 

数据 增值 的 关键 在 于 整合 ,但 自由 整合 的 前 提 蚌 数据 的 开放 。 在 大 数据 时 代 , 开 放 数 据 
的 意义 ,不 仅仅 是 满足 公民 的 知情 权 ,更 在 于 让 大 数据 时 代 最 重要 的 生产 资料 .生活 数据 自 
由 地 流动 起 来 ,准确 全 面 地 应 用 起 来 ,以 推动 知识 经 济 和 网 络 经 济 的 发 展 ,促进 中 国 的 经 济 
增长 由 粗放 型 向 精细 型 转型 升级 。 然 而 战略 观念 上 的 缺失 ,政府 机 构 协 调 困 难 、 企 业 对 数据 
共享 的 认识 不 足 及 投入 不 够 .科学 家 对 大 数据 的 渴望 无 法 满足 等 都 是 当前 大 数据 在 我 国 发 
展 应 用 中 不 得 不 面 对 的 困难 。 

4. 大 数据 管理 与 决策 

大 数据 的 技术 挑战 显而易见 ,但 其 带 来 的 决策 挑战 更 为 艰巨 。 大 数据 至 关 重 要 的 方面 ， 
就 是 它 会 直接 影响 组 织 怎样 作 决 策 、 谁 来 做 决策 。 在 信息 有 限 、 获 取 成 本 高 昂 且 没有 被 数字 
化 的 时 代 ,组织 内 作 重 大 决策 的 人 ,都 是 位 高 权重 的 人 ,或 高 价 请 来 的 拥有 专业 技能 和 丰富 
经 验 的 外 部 智 赛 。 但 是 ,在 当今 的 商业 世界 中 ,高 管 的 决策 仍然 更 多 地 依赖 个 人 经 验 和 直 


觉 ,而 不 是 基于 数据 。 

大 数据 开发 的 根本 目的 是 以 数据 分 析 为 基础 ,帮助 人 们 做 出 更 明智 的 决策 ,优化 企业 和 
社会 运转 。 喻 佛 商 业 评 论说 ,大 数据 本 质 上 是 “一 场 管理 革命 *。 大 数据 时 代 的 决策 不 能 仅 
赁 经验, 而 真正 要 “ 拿 数 据说 话 ”。 因 此 ,大 数据 能 够 真正 发 挥 作用 ,深层 次 看 ,还 要 改善 人 们 
的 管理 模式 ,需要 将 管理 方式 和 架构 与 大 数据 技术 工具 相 适 配 。 这 或 许 是 人 们 最 难 迈 过 的 
一 道 坎 了 。 

大 数据 应 用 领域 仍 窗 小 ,应 用 费用 过 高 ,因此 制约 了 大 数据 的 应 用 。 国 内 能 利用 大 数据 
背后 产业 价值 的 行业 主要 集中 在 金融 \ 证 券 . 电 信 、 能 源 、 烟 草 等 超大 型 .垄断 型 企业 ,其 他 行 
业 谈 大 数据 价值 为 时 尚 早 。 随 着 企业 内 部 的 资料 量 愈 来 愈 大 ,日 后 大 数据 将 成 为 IT 支出 
中 的 主要 部 分 ,特别 是 数据 储存 所 耗费 的 成 本 ,很 可 能 加 重 企 业 负 担 ,使 企业 望而却步 。 因 
此 有 远见 的 企业 管理 人 员 必 须 预 先 做 好 准备 。 

5. KHAT iko 

如 果 说 ,以 Hadoop 为 代表 的 大 数据 是 一 头 小 象 ,那么 企业 必须 有 能 够 驯服 它 的 驯 兽 
师 。 企 业 中 缺少 精通 大 数据 技术 的 相关 人 才 成 为 一 个 大 问题 。 

大 数据 建设 的 每 个 环节 都 需要 依靠 专业 人 员 完 成 ,因此 必须 培养 和 造就 一 支 懂 指 挥 、 慌 
技术 、 懂 管理 的 大 数据 建设 专业 队伍 。 


1.4.2 企业 大 数据 的 发 展 方向 


近 几 年 ,互联 网 行业 发 展 风起云涌 ,大 数据 炙手可热 ,对 处 于 初始 阶段 的 大 数据 而 言 ,很 
多 企业 都 不 会 错失 机 会 。 那 么 ,企业 大 数据 未 来 的 发 展 方向 是 什么 呢 ? 

1. 数据 的 资源 化 

资源 化 是 指 大 数据 成 为 企业 和 社会 关注 的 重要 战略 资源 ,并 已 成 为 大 家 争 相 抢夺 的 新 
焦点 。 因 此 ,企业 必须 要 提前 制定 大 数据 营销 战略 计划 ,抢占 市 场 先 机 。 

2. 大 数据 分 析 领 域 高 速 发 展 

数据 蕴藏 价值 ,但 是 数据 的 价值 需要 用 IT 技术 去 发 现 ,去 探索 ,数据 的 积累 并 不 能 够 
代表 其 价值 的 多 少 。 而 如 何 发 现 数据 中 的 价值 已 经 成 为 企业 用 户 密切 关注 的 话题 ,于 是 大 
数据 分 析 成 为 人 们 密切 关注 的 问题 ,毕竟 这 个 直接 关系 到 数据 的 利用 情况 。 随 着 大 数据 行 
业 IT 基础 设施 的 不 断 完善 ,大 数据 分 析 技 术 将 迎 来 快速 发 展 , 不 同 的 挖掘 技术 、 挖 掘 方法 
将 是 人 们 未 来 比较 重视 的 领域 ,因为 这 个 领域 直接 关系 到 数据 价值 的 最 终 体 现 方式 。 

3. 大 数据 技术 将 成 为 企业 IT 的 核心 技术 

随 着 大 数据 价值 逐渐 被 发 展 , 大 数据 技术 将 成 为 企业 IT 的 核心 技术 ,因为 在 这 个 以 营 
利 为 主导 的 行业 环境 中 ,什么 技术 能 够 为 企业 带 来 更 多 的 价值 企业 就 会 重视 什么 技术 。 在 
PAGE ,IT 系统 在 企业 中 更 多 的 是 扮演 辅助 工作 的 任务 ,而 随 着 大 数据 的 发 展 ,IT 系统 也 将 
具有 更 大 的 意义 。 如 今 ,社会 化 数据 分 析 也 正在 崛起 ,这 对 于 IT ASE IT 来 说 都 影响 深远 。 
越 来 越 多 的 企业 将 开始 分 析 与 情 、 地 理 位 置 . 行 为 .社交 图 景 和 富 媒体 社会 化 数据 来 更 好 地 
了 解 客户 需求 ,进行 更 有 效 的 风险 管理 ,IT 部 门 也 开始 利用 社交 媒体 应 用 协作 解决 问题 ,或 

4. 分 布 式 存储 将 发 挥 更 大 价值 

大 数据 的 特点 就 是 数量 多 且 大 ,这 就 使 得 存储 的 管理 面临 着 挑战 ,这 个 问题 就 需要 新 的 


技术 来 解决 ,分 布 式 存储 技术 将 作为 未 来 解决 大 数据 存储 的 重要 技术 。 分 布 式 存储 系统 将 
数据 分 散 存 储 在 多 台独 立 的 设备 上 。 这 就 解决 了 传统 存储 方式 的 存储 性 能 的 瓶颈 问题 。 分 
布 式 网 络 存储 系统 采用 可 扩展 的 系统 结构 ,利用 多 台 存 储 服务 器 分 担 存储 负荷 ,利用 位 置 服 
务 器 定位 存储 信息 , 它 不 但 提高 了 系统 的 可 靠 性 、 可 用 性 和 存 取 效 率 , 还 易于 扩展 。 

5. 大 数据 与 云 技术 的 结合 

如 果 再 找 一 个 可 以 跟 大 数据 并 驾 齐 驱 的 IT 热 词 , 云 计算 无 疑 是 与 大 数据 关系 非常 大 
的 一 个 词语 。 很 多 人 在 提 到 大 数据 的 时 候 总 会 想到 云 计算 ,二 者 还 是 有 很 多 不 同 的 ,用 一 句 
话 来 解释 两 者 : 云 计算 是 硬件 资源 的 虚拟 化 ,大 数据 则 是 海量 数据 的 高 效 处 理 。 虽 然 大 数 
据 与 云 计算 不 同 ,但 是 两 者 之 间 还 是 有 着 千 丝 万 缕 的 关系 。 云 计算 相当 于 人 们 的 计算 机 和 
操作 系统 ,将 大 量 的 硬件 资源 虚拟 化 之 后 再 进行 分 配 使 用 ,大 数据 则 是 人 们 处 理 的 数据 。 云 
计算 是 大 数据 处 理 器 的 最 佳 平台 ,未 来 ,这 种 趋势 的 发 展 将 使 越 来 越 使 人 的 关系 紧密 。 

6. 中 国 成 为 大 数据 最 重要 的 市 场 

中 国 在 未 来 将 可 能 成 为 大 数据 最 重要 的 市 场 ,中 国 拥有 世界 上 1/5 的 人 口 , 同 时 中 国 的 
发 展 正 处 于 快速 的 上 升 期 。 中 国产 生 的 数据 将 是 巨大 的 ,而 巨大 的 数据 对 大 数据 的 发 展 将 
起 到 促进 的 作用 ,而 大 数据 在 中 国 市 场 的 发 展 也 将 处 于 领先 地 位 。 


1.4.3 企业 大 数据 观 


前 面 通过 “大 数据 对 企业 的 挑战 “大 数据 的 存储 ”“ 企 业 大 数据 的 发 展 方向 ”, 已 然 表 
明了 大 数据 对 企业 的 重要 性 , 接 下 来 分 析 企 业 应 该 如 何 应 对 大 数据 时 代 的 到 来 , 即 企 业 应 具 
有 什么 样 的 大 数据 观 。 

(1) 企业 应 当 跳 出 传统 的 信息 系统 思维 的 约束 ,将 企业 的 信息 化 边界 放 在 一 个 信息 的 
“ 巨 系统 "下 思考 ,因为 那里 存放 了 企业 所 需要 的 大 量 数据 。 

(2) 企业 做 大 数据 系统 ,本 质 上 是 在 做 情报 分 析 系 统 , 使 企业 具备 基于 数据 判断 、 基 于 
数据 决策 的 能 力 。 

(3) 决定 企业 未 来 竞争 力 的 因素 在 现 有 ”资金 流 、 信 息 流 、 物 流 ” 基 础 上 要 再 加 上 ”大 数 
据 ”, 这 四 个 要 素 应 用 的 好 坏 将 决定 企业 能 “ 走 多 远 、 变 多 大 ”。 

(4) 借助 大 数据 技术 可 以 使 企业 摆脱 以 往 只 能 将 有 限 的 资源 放 在 重点 领域 检测 的 束 
缚 ,从 而 实现 对 企业 的 全 面 检测 ,真正 使 企业 从 “粗放 经 营 "走向 “智慧 经 营 ”。 


本 章 小 结 


本 章 主要 从 宏观 的 角度 概括 地 介绍 了 大 数据 。 

(1) 大 数据 的 时 代 背 景 。 从 大 数据 的 来 源 到 大 数据 的 价值 和 影响 ,以 及 对 应 用 前 景 和 
发 展 前 景 的 介绍 ,理解 什么 是 大 数据 ,大 数据 是 用 来 干什么 的 。 

(2) 大 数据 的 基本 概念 。 首 先 介绍 了 什么 是 大 数据 ,大 数据 中 数据 结构 的 复杂 度 ,重点 
理解 大 数据 的 四 个 核心 特征 ,接着 介绍 了 大 数据 所 使 用 的 技术 ,最 后 介绍 了 一 些 大 数据 的 应 
用 实例 。 

G) 大 数据 系统 。 介 绍 了 其 核心 设计 目标 ,在 系统 设计 目标 的 实现 过 程 中 ,系统 还 需 遵 
循 一 定 的 设计 原则 。 


(4) 在 大 家 初步 了 解 大 数据 后 ,还 要 理解 大 数据 在 企业 中 的 实际 运用 ,以 及 大 数据 对 企 
业 的 意义 。 


J 题 


1. 概述 大 数据 的 价值 和 影响 。 

2. 详细 描述 大 数据 的 四 大 核心 特征 。 

3. 大 数据 处 理 中 所 面临 的 数据 结构 类 型 大 多 数 是 结构 化 数据 。 判 断 这 句 话 是 否 正确 ， 
并 阐述 理由 。 

4. Hadoop 这 个 项 目 主要 由 哪 两 大 部 分 组 成 ,这 两 大 部 分 的 子 项 目 分 别 是 什么 ? 

5. 在 大 数据 如 火 如 蔡 的 今天 ,企业 面临 哪些 挑战 ? 简要 阐述 企业 对 大 数据 要 采取 什么 
样 的 态度 ? 


初 识 Hadoop 


本 章 提 要 


在 第 1 章 中 介绍 了 大 数据 的 基本 概念 及 与 大 数据 相关 的 几 个 核心 问题 ,通过 这 些 问题 
已 经 对 大 数据 有 了 一 个 初步 的 了 解 , 由 于 大 数据 对 系统 提出 了 很 多 极限 的 要 求 , 不 论 是 存 
储 、 传 输 还 是 计算 , 现 有 的 计算 技术 难以 满足 大 数据 的 需求 ,因此 引入 了 Hadoop 平台 。 
Hadoop 是 Apache 软件 基金 会 旗下 的 一 个 开源 式 分 步 计 算 平台 ,以 Hadoop 分 布 式 文件 系 
统 (Hadoop Distributed File System,HDFS) 和 MapReduce 为 核心 的 Hadoop 为 用 户 提供 
了 系统 底层 细节 透明 的 分 布 式 基础 框架 。 

本 章 将 通过 介绍 Hadoop 基本 简介 、 体 系 结构 、 分 布 式 开 发 以 及 生态 系统 等 有 关内 容 ， 
让 读者 了 解 到 什么 是 Hadoop, Hadoop 是 怎样 的 ,将 Hadoop 与 其 他 系统 相 比 较 , 最 后 列举 
一 些 Hadoop 应 用 案例 ,从 而 使 读者 深入 了 解 Hadoop. 


2.1 Hadoop 简介 


Hadoop 是 一 个 基础 架构 系统 ,是 Google 的 云 计算 基础 架构 的 开源 实现 ,主要 由 
HDFS, MapReduce 组 成 。 


2.1.1 Hadoop 概况 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。 用 户 可 以 在 不 了 解 
分 布 式 底层 细节 的 情况 下 开发 分 布 式 程序 。 简 单 地 说 来 ,Hadoop 是 一 个 可 以 更 容易 开发 
和 运行 处 理 大 规模 数据 的 软件 平台 。 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。Hadoop 
实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS)。HDFS 有 高 容错 性 
的 特点 ,并 且 设 计 用 来 部 署 在 低廉 的 硬件 上 ,形成 分 布 式 系统 ; 它 通 过 提供 高 吞吐 量 来 访问 
应 用 程序 的 数据 ,适合 那些 有 着 超大 数据 集 的 应 用 程序 。HDFS 放宽 了 POSIX 的 要 求 ,可 
以 以 流 的 形式 访问 文件 系统 中 的 数据 。 因 此 用 户 可 以 利用 Hadoop 轻松 地 组 织 计算 资源 ， 
从 而 搭建 自己 的 分 布 式 计算 平台 ,并 且 可 以 充分 利用 集群 的 计算 和 存储 能 力 ,完成 海量 数据 
处 理 。 

Hadoop 本 质 上 起 源 于 Google 的 集群 系统 ,Google 的 数据 中 心 使 用 廉价 Linux PC 组 
成 集群 ,运行 各 种 应 用 。 即 使 是 分 布 式 开发 新 手 也 可 以 迅速 使 用 Google 的 基础 设施 。 
Google 采集 系统 的 核心 组 件 有 两 个 : 一 个 是 GFS. 这 是 一 个 分 布 式 文件 系统 ,隐藏 下 层 负 


载 均衡 , 宛 余 复 制 等 细节 ,对 上 层 程序 提供 一 个 统一 的 文件 系统 API 接口 ; 另 一 个 是 
MapReduce 计算 模型 ,Google 发 现 大 多 数 分 布 式 运 算 可 以 抽象 为 MapReduce 操作 。Map 
是 把 输入 Input 分 解 成 中 间 的 Key/Value X}, Reduce 把 Key/Value 合成 ,最 终 输 出 
Output。 这 两 个 函数 由 程序 员 提 供给 系统 ,下 层 设施 把 Map 和 Reduce 操作 分 布 在 集群 上 
运行 ,并 把 结果 存储 在 GFS 上 。 

Hadoop 框架 最 核心 的 设计 就 是 : HDFS 和 MapReduce。HDFS 为 海量 的 数据 提供 了 
存储 , MapReduce 为 海量 的 数据 提供 了 计算 , 即 Hadoop 实现 了 HDFS 文件 系统 和 
MapReduce 计算 框架 ,使 Hadoop 成 为 一 个 分 布 式 的 计算 平台 。 用 户 只 要 分 别 实现 Map 和 
Reduce, 并 注册 Job 即 可 自动 分 布 式 运行 。 因 此 ,Hadoop 并 不 仅仅 是 一 个 用 于 存储 的 分 布 
式 文件 系统 ,而 且 是 用 于 由 通过 计算 设备 组 成 的 大 型 集群 上 执行 分 布 式 应 用 的 框架 。 实 际 
上 ,狭义 的 Hadoop 就 是 指 HDFS 和 MapReduce, 是 一 种 典型 的 Master-Slave 架构 。 如 
图 2-1 所 示 。 


Serverl 
master 
Server2 Server3 Server4 
Slave slave slave 


图 2-1 Hadoop 基本 架构 


如 今 广 义 的 Hadoop 已 经 包括 Hadoop 本 身 和 基于 Hadoop 的 开源 项 目 ,并 且 已 经 形成 
了 完备 的 Hadoop 生态 链 系 统 ,这 点 在 2. 2. 3 小 节 中 会 讲 到 。 


2.1.2 Hadoop 的 功能 和 作用 


众所周知 ,当今 社会 信息 科技 飞速 发 展 ,这 些 信息 中 又 积累 着 大 量 数据 ,人 们 若 要 对 这 
些 数据 进行 分 析 处 理 , 以 获取 更 多 有 价值 的 信息 ,可 以 选择 Hadoop 系统 。Hadoop 是 一 种 
实现 云 存 储 和 云 计算 的 方法 ,在 处 理 这 类 问题 时 .采用 了 分 布 式 存储 方式 ,提高 了 读 写 速度 ， 
并 扩大 了 存储 容量 。 采 用 MapReduce 来 整合 分 布 式 文件 系统 上 的 数据 ,可 保证 分 析 和 处 理 
数据 的 高 效 。 与 此 同时 , Hadoop 还 采用 存储 元 余数 据 的 方式 保证 了 数据 的 安全 性 。 
Hadoop 中 HDFS 的 高 容错 特性 ,以 及 它 是 基于 Java 语言 开发 的 特性 使 得 Hadoop 可 以 部 
署 在 低廉 的 计算 机 集群 中 ,同时 不 限于 某 个 操作 系统 。Hadoop 中 HDFS 的 数据 管理 能 力 ， 
MapReduce 处 理 任 务 时 的 高 效率 ,以 及 它 的 开源 特性 ,使 其 在 同类 的 分 布 式 系统 中 大 放 蜡 
彩 ,并 在 众多 行业 和 科研 领域 中 被 广泛 采用 。 


2.1.3 Hadoop 的 优势 


Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 , Hadoop 可 以 以 一 种 可 
靠 、 高 效 、 可 伸缩 的 方式 进行 处 理 。Hadoop 是 可 靠 的 ,因为 它 假设 计算 元 素 和 存储 会 失败 ， 
因此 维护 多 个 工作 数据 副本 ,确保 能 够 针对 失败 的 节点 重新 分 布 处 理 。Hadoop 是 高 效 的 ， 


因为 它 可 以 并 行 工作 ,通过 并 行 处 理 加 快 处 理 速度 。Hadoop 是 可 伸缩 的 ,能 够 处 理 拍 字 节 
(PB) 级 数据 。 此 外 ,Hadoop 依赖 于 廉价 商用 服务 器 ,因此 它 的 成 本 较 低 , 任 何人 都 可 以 使 
用 。Hadoop 是 一 个 能 够 让 用 户 轻松 搭建 和 使 用 的 分 布 式 计算 平台 ,用 户 可 以 轻松 地 在 
Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 它 的 主要 优点 如 下 。 

(1) 高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数据 的 能 力 值得 人 们 信赖 。 

(2) 高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 簇 间 分 配 数 据 并 完成 计算 任务 的 ,这 些 集 
艇 可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

(3) 高 效 性 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ,并 保证 各 个 节点 的 动态 平衡 ， 
因此 处 理 速 度 非常 快 。 

(4) 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ,并 且 能 够 自动 将 失败 的 任务 重 
新 分 配 。Hadoop 带 有 用 Java 语言 编写 的 框架 ,因此 运行 在 Linux 生产 平台 上 是 非常 理想 
的 ,Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ,比如 C++ 。 

Hadoop 得 以 在 大 数据 处 理 中 广泛 应 用 得 益 于 其 自身 在 数据 提取 、 变 形 和 加 载 (ETL) 
方面 的 天 然 优 势 。Hadoop 的 分 布 式 架构 ,将 大 数据 处 理 引擎 尽 可 能 地 靠近 存储 ,对 例如 像 
ETL 这 样 的 批 处 理 操作 相对 合适 ,因为 类 似 这 样 操作 的 批 处 理 结果 可 以 直接 走向 存储 。 
Hadoop 的 MapReduce 功能 实现 了 将 单个 任务 打 碎 ,并 将 碎片 任务 (Map) 发 送 到 多 个 节点 
上 ,之 后 再 以 单个 数据 集 的 形式 加 载 (Reduce) 到 数据 仓库 里 。 


2.1.4 Hadoop 的 发 展 史 


Hadoop 原本 来 自 于 谷歌 一 款 名 为 MapReduce 的 编程 模型 包 。 谷 歌 的 MapReduce 框 
架 可 以 把 一 个 应 用 程序 分 解 为 许多 并 行 计算 指令 , 跨 大 量 的 计算 节点 运行 非常 巨大 的 数据 
集 。 使 用 该 框架 的 一 个 典型 例子 就 是 在 网 络 数据 上 运行 的 搜索 算法 。Hadoop 最 初 只 与 网 
页 索引 有 关 , 迅 速 发 展 成 为 分 析 大 数据 的 领先 平台 。 

Hadoop 最 早起 源 于 Nutch, Nutch 是 一 个 开源 的 网 络 搜索 引擎 ,由 Doug Cutting 于 
2002 年 创建 。Nutch 的 设计 目标 是 构建 一 个 大 型 的 全 网 搜索 引擎 ,包括 网 页 抓 取 、 索 引 \ 查 
询 等 功能 ,但 随 着 抓 取 网 页 数量 的 增加 , 遇 到 了 严重 的 可 扩展 性 问题 ,不 能 解决 数 十 亿 网 页 
的 存储 和 索引 问题 。 之 后 ,谷歌 发 表 的 两 篇 论文 为 该 问题 提供 了 可 行 的 解决 方案 。 一 篇 是 
2003 年 发 表 的 关于 谷歌 分 布 式 文件 系统 (GFS) 的 论文 。 该 论文 描述 了 谷歌 搜索 引擎 网 页 
相关 数据 的 存储 架构 ,该 架构 可 解决 Nutch 遇 到 的 网 页 抓 取 和 索引 过 程 中 产生 的 超大 文件 
存储 需求 的 问题 。 但 由 于 谷歌 未 开源 代码 ,Nutch 项 目 组 便 根据 论文 完成 了 一 个 开源 实现 ， 
即 Nutch 的 分 布 式 文件 系统 (NDFS)。 另 一 篇 是 2004 年 发 表 的 关于 谷歌 分 布 式 计算 框架 
MapReduce 的 论文 。 该 论文 描述 了 谷歌 内 部 最 重要 的 分 布 式 计算 框架 MapReduce 的 设计 
艺术 ,该 框架 可 用 于 处 理 海量 网 页 的 索引 问题 。 同 样 ,由 于 谷歌 未 开放 源 代码 , Nutch 的 开 
发 人 员 完 成 了 一 个 开源 实现 。 由 于 NDFS 和 MapReduce 不 仅 适用 于 搜索 领域 ,2006 年 年 
初 ,开发 人 员 便 将 其 移出 Nutch ,成 为 Lucene 的 一 个 子 项 目 , 称 为 Hadoop。 大 约 同一 时 间 ， 
Doug Cutting 加 入 雅虎 公司 , 且 公 司 同意 组 织 一 个 专门 的 团队 继续 发 展 Hadoop。 同 年 
2 月 ,Apache Hadoop 项 目 正 式 启 动 以 支持 MapReduce 和 HDFS 的 独立 发 展 。2008 年 
1 H , Hadoop KH Apache 顶级 项 目 , 迎 来 了 它 的 快速 发 展期 。 

目前 有 很 多 公司 开始 提供 基于 Hadoop 的 商业 软件 、 支 持 、 服 务 以 及 培训 。Cloudera 是 


一 家 美国 的 软件 公司 ,该 公司 在 2008 年 开始 提供 基于 Hadoop 的 软件 和 服务 。GoGrid 是 
一 家 云 计 算 基 础 设施 公司 。 在 2012 年 ,该 公司 与 Cloudera 合作 加 速 了 企业 采纳 基于 
Hadoop 应 用 的 步伐 。Dataguise 公司 是 一 家 数据 安全 公司 ,同样 在 2012 年 该 公司 推出 了 一 
款 针 对 Hadoop 的 数据 保护 和 风险 评估 。 


2.1.5 Hadoop 的 应 用 前 景 


Hadoop 在 设计 之 初 就 定位 于 高 可 靠 性 、 高 可 拓展 性 、 高 容错 性 和 高 效 性 。 正 是 这 些 设 
计 上 与 生 俱 来 的 优点 , 才 使 得 Hadoop 一 出 现 就 受到 众多 大 公司 的 青睐 ,同时 也 引起 了 研究 
界 的 普遍 关注 。 到 目前 为 止 , Hadoop 技术 在 互联 网 领域 已 经 得 到 了 广泛 的 运用 。 例 如 ， 
Yahoo! 使 用 4000 个 节点 的 Hadoop 集群 来 支持 广告 系统 和 Web 搜索 的 研究 ;Facebook 
使 用 1000 个 节点 的 集群 运行 Hadoop 存储 日 志 数 据 , 支 持 其 上 的 数据 分 析 和 机 器 学 习 ; 百 
度 用 Hadoop 处 理 每 周 200TB 的 数据 ,从 而 进行 搜索 日 志 分 析 和 网 页 数据 挖掘 工作 ;中 国 
移动 研究 院 基于 Hadoop 开发 了 “大 云 ”(Big Cloud) 系 统 ,不 但 用 于 相关 数据 分 析 , 还 对 外 提 
供 服 务 ;淘宝 的 Hadoop 系统 用 于 存储 并 处 理 电 子 商 务 交 易 的 相关 数据 。 国 内 的 高 校 和 科 
研 院 所 基于 Hadoop 在 数据 存储 、 资 源 管理 ,作业 调度 、 性 能 优化 、 系 统 高 可 用 性 和 安全 性 方 
面 进行 研究 ,相关 研究 成 果 多 以 开源 形式 贡献 给 Hadoop 社区 。 

除了 上 述 大 型 企业 将 Hadoop 技术 运用 在 自身 的 服务 中 外 ,一 些 提 供 Hadoop 解决 方 
案 的 商业 型 公司 也 纷纷 跟 进 ,利用 自身 技术 对 Hadoop 进行 优化 改进、 二 次 开发 等 ,然后 以 
公司 自 有 产品 形式 对 外 提供 Hadoop 的 商业 服务 。 比 较 知名 的 有 创办 于 2008 年 的 
Cloudera 公司 , 它 是 一 家 专业 从 事 基于 ApacheHadoop 的 数据 管理 软件 销售 和 服务 的 公 
司 , 它 希望 充当 大 数据 领域 中 类 似 Red Hat 在 Linux 世界 中 的 角色 。 该 公司 基于 Apache 
Hadoop 发 行 了 相应 的 商业 版 本 Cloudera Enterprise, 还 提供 Hadoop 相关 的 支持 .咨询 、 培 
训 等 服务 。 在 2009 年 ,Cloudera 聘请 了 Doug Cutting( Hadoop 的 创始 人 ) 担 任 公司 的 首席 
架构 师 , 从 而 进一步 加 强 了 Cloudera 公司 在 Hadoop 生态 系统 中 的 影响 。 最 近 ,Oracle 也 
表示 已 经 将 Cloudera 的 Hadoop 发 行 版 和 Cloudera Manager 整合 到 Oracle Big Data 
Appliance 中 。 同 样 ,Intel 也 基于 Hadoop 发 行 了 自己 的 版 本 IDH。 从 这 些 可 以 看 出 , 越 来 
越 多 的 企业 将 Hadoop 技术 作为 进入 大 数据 领域 的 必 备 技术 。 

目前 ,Hadoop 技术 虽然 已 经 被 广泛 应 用 ,但 是 该 技术 无 论 在 功能 上 还 是 在 稳定 性 等 方 
面 还 有 待 进一步 完善 ,所 以 还 在 不 断 开 发 和 不 断 升 级 维护 的 过 程 中 ,新 的 功能 也 在 不 断 地 被 
添加 和 引入 ,读者 可 以 关注 Apache Hadoop 的 官方 网 站 了 解 最 新 的 信息 。 得 益 于 如 此 多 厂 
商 和 开源 社区 的 大 力 支持 ,相信 在 不 久 的 将 来 ,Hadoop 也 会 像 当年 的 Linux 一 样 被 广泛 应 
用 于 越 来 越 多 的 领域 ,从 而 风靡 全 球 。 


22 深入 了 解 Hadoop 


2.2.1 Hadoop 的 体系 结构 


Hadoop 的 体系 结构 包含 了 HDFS 体系 结构 和 MapReduce 体系 结构 。 正 如 Hadoop 
简介 中 所 描述 的 一 样 ,HDFS 和 MapReduce 是 Hadoop 的 两 大 核心 。 而 整个 Hadoop 的 体 


系 结构 主要 是 通过 HDFS 来 实现 对 分 布 式 存 储 底层 的 支持 ,并 且 它 会 通过 MapReduce 来 
实现 对 分 布 式 并 行 任务 处 理 的 程序 支持 。 对 这 两 种 体系 结构 详细 情况 的 介绍 如 下 。 

1. HDFS 体系 结构 

HDFS 采用 了 主 从 (Master/Slave) 结 构 模 型 ,一 个 HDFS 集群 是 由 一 个 NameNode 和 
若干 个 DataNode 组 成 的 。 其 中 ,NameNode 作为 主 服 务 器 ,管理 文件 系统 的 命名 空间 和 客 
户 端 对 文件 的 访问 操作 ;集群 中 的 DataNode 管理 存储 的 数据 。HDFS 允许 用 户 以 文件 的 
形式 存储 数据 。 从 内 部 来 看 ,文件 被 分 成 若干 个 数据 块 ,而 且 这 若干 个 数据 块 存放 在 一 组 
DataNode 上 。NameNode 执行 文件 系统 的 命名 空间 操作 ,比如 打开 、 关 闭 、 重 命名 文件 或 目 
录 等 , 它 也 负责 数据 块 到 具体 DataNode 的 映射 。DataNode 负责 处 理 文件 系统 客户 端的 文 
件 读 写 请 求 , 并 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 ,删除 和 复制 工作 。HDFS 
的 体系 结构 如 图 2-2 所 示 。 
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图 2-2 HDFS 体系 结构 


NameNode 和 DataNode 都 被 设计 成 可 以 在 普通 商用 计算 机 上 运行 。 这 些 计 算 机 通常 
运行 的 是 GNU/Linux 操作 系统 。HDFS 采用 Java 语言 开发 ,因此 任何 支持 Java 的 计算 机 
都 可 以 部 署 NameNode 和 DataNode。 一 个 典型 的 部 署 场景 是 集群 中 的 一 台 计 算 机 运行 一 
个 NameNode 实例 ,其 他 计算 机 分 别 运 行 一 个 DataNode 实例 。 当 然 , 并 不 排除 一 台 计 算 机 
运行 多 个 DataNode 实例 的 情况 。 集 群 中 单一 的 NameNode 的 设计 则 大 大 简化 了 系统 的 架 
构 。NameNode 是 所 有 HDFS 元 数据 的 管理 者 ,用 户 数据 永远 不 会 经 过 NameNode。 

2. MapReduce 体系 结构 

MapReduce 是 一 种 并 行 编程 模式 ,这 种 模式 使 得 软件 开发 者 可 以 轻松 地 编写 出 分 布 式 
并 行程 序 。 在 Hadoop 的 体系 结构 中 ,MapReduce 是 一 个 简单 易 用 的 软件 框架 ,基于 它 可 
以 将 任务 分 发 到 由 上 千 台 商用 计算 机 组 成 的 集群 上 ,并 以 一 种 高 容错 的 方式 并 行 处 理 大 量 
的 数据 集 ,实现 Hadoop 的 并 行 任务 处 理 功 能 。 

由 此 可 知 ,HDFS 和 MapReduce 共同 组 成 了 Hadoop 分 布 式 系统 体系 结构 的 核心 。 
HDFS 在 集群 上 实现 了 分 布 式 文件 系统 ,MapReduce 在 集群 上 实现 了 分 布 式 计算 和 任务 处 
理 。HDFS 在 MapReduce 任务 处 理 过 程 中 提供 了 文件 操作 和 存储 等 支持 , MapReduce 在 
HDFS 的 基础 上 实现 了 任务 的 分 发 .跟踪 、 执 行 等 工作 ,并 收集 结果 ,二 者 相互 作用 完成 了 


Hadoop 分 布 式 集群 的 主要 任务 。 
2.2.2 Hadoop 与 分 布 式 开发 


Hadoop 分 布 式 文件 系统 是 一 个 用 于 普通 硬件 设备 上 的 分 布 式 文件 系统 , 它 与 现 有 的 
文件 系统 有 很 多 相似 的 地 方 , 但 又 和 这 些 文件 系统 有 很 多 明显 的 不 同 。 实 际 上 , 它 就 是 分 布 
式 软 件 系 统 , 即 支持 分 布 式 处 理 的 软件 系统 。 它 是 在 通信 网 络 互 联 的 多 处 理 机 体系 结构 上 
执行 任务 的 系统 ,包括 分 布 式 操作 系统 ,分布 式 程序 设计 语言 及 其 编译 系统 、 分 布 式 文件 系 
统 和 分 布 式 数据 库 系统 等 。Hadoop 是 分 布 式 软件 系统 中 文件 系统 层 的 软件 , 它 实 现 了 分 
布 式 文件 系统 和 部 分 分 布 式 数据 库 系统 的 功能 。Hadoop 中 的 分 布 式 文件 系统 HDFS 能 够 
实现 数据 在 计算 机 集群 组 成 的 云 上 高 效 地 存储 和 管理 , Hadoop 中 的 并 行 编程 框架 
MapReduce 能 够 让 用 户 编 写 的 Hadoop 并 行 运 用 的 程序 运行 得 以 简单 化 。 本 小 节 将 介绍 
一 些 简单 的 Hadoop 进行 分 布 式 并 发 编程 的 相关 知识 。 

在 Hadoop 上 开发 并 行 应 用 程序 是 基于 MapReduce 编程 模型 的 。MapReduce 编程 模 
型 的 原理 是 : 利用 一 个 输入 的 key/value 对 集合 产生 一 个 输出 的 key/value 对 集合 。 
MapReduce 库 的 用 户 用 两 个 函数 来 表达 这 个 计算 : Map 和 Reduce。 用 户 定义 的 Map 函数 
接收 一 个 输入 key/value, 然 后 产生 一 个 中 间 key/value 对 的 集合 。MapReduce 把 所 有 具有 
相同 key 值 的 value 集合 在 一 起 ,然后 传递 给 Reduce 函数 。 用 户 定义 的 Reduce 函数 接收 
key 和 相关 的 value 集合 ,Reduce 函数 合并 这 些 value 值 ,形成 一 个 较 小 的 value 集合 。 一 
般 来 说 ,每 次 调用 Reduce 函数 只 产生 0 或 者 1 个 输出 的 value 值 。 通 常 通过 一 个 迭代 器 把 
中 间 value 值 提供 给 Reduce 函数 ,这 样 就 可 以 处 理 无 法 全 部 放 入 内 存 中 的 大 量 的 value 值 
EET. WEA 2-3 所 示 的 MapReduce 数据 流 图 ,体现 了 MapReduce 处 理 大 数据 集 的 过 程 。 
简 而 言 之 ,这 个 过 程 就 是 将 大 数据 集 分 解 为 成 百 上 千 个 小 数据 集 ,每 个 或 若干 个 数据 集 分 别 
由 集群 中 的 一 个 节点 进行 处 理 并 生成 中 间 结 果 , 然 后 这 些 中 间 结 果 又 由 大 量 的 节点 合并 , 形 
成 最 终结 果 。 图 2-3 也 说 明了 MapReduce 框架 下 并 行程 序 中 两 个 主要 函数 : Map、Reduce。 
在 这 个 结构 中 ,用 户 需要 完成 的 是 根据 任务 编写 Map 和 Reduce 函数 。 


input map tasks reduce tasks output 
split0 一 -| map( ) 

split! -一 ~ map( ) reduce( ) 上 一 一 一 | part0 | 
split2 一 ~ map( ) reduce( ) = part] | 
split3 上- map( ) reduce() | -| part? | 
split4 H map( ) 


图 2-3 MapReduce 数据 流 
MapReduce 计算 模型 非常 适合 在 大 量 计算 机 组 成 的 大 规模 集群 上 并 行 运行 。 图 2-3 中 


的 每 一 个 Map 任务 和 每 一 个 Reduce 任务 均 可 以 同时 运行 于 一 个 单独 的 计算 节点 上 ,可 想 
而 知 其 运算 效率 是 很 高 的 。 因 此 , 接 下 来 将 了 解 其 并 行 计算 的 原理 。 


1. 数据 的 分 布 存储 

Hadoop 中 的 分 布 式 文件 系统 HDFS 由 一 个 管理 节点 (NameNode) 和 N 个 数据 节点 
(DataNode) 组 成 ,每 个 节点 均 是 一 台 普 通 的 计算 机 。 在 使 用 上 与 我 们 熟悉 的 单机 上 的 文件 
系统 非常 相似 ,同样 可 以 新 建 目录 ,创建 ,复制 .删除 文件 ,查看 文件 内 容 等 。 但 其 底层 实现 
上 是 把 文件 切割 成 块 (Block) ,然后 这 些 块 分 散 地 存储 于 不 同 的 DataNode 上 ,每 个 块 还 可 
以 复制 数 份 存储 于 不 同 的 DataNode 上 ,达到 容错 容 灾 的 目的 。NameNode 则 是 整个 
HDFS 的 核心 , 它 通 过 维护 一 些 数 据 结 构 , 记 录 了 每 一 个 文件 被 切割 成 了 多 少 个 块 , 这 些 块 
可 以 从 哪些 DataNode 中 获得 ,各 个 DataNode 的 状态 等 重要 信息 。 

2. 分 布 式 并 行 计算 

Hadoop 中 有 一 个 作为 主 控 的 JobTracker, 用 于 调度 和 管理 其 他 的 TaskTracker， 
JobTracker 可 以 运行 于 集群 中 任 一 台 计算 机 上 。TaskTracker 负责 执行 任务 ,必须 运行 于 
DataNode 上 , 即 DataNode 既是 数据 存储 节点 ,也 是 计算 节点 。JobTracker 将 Map 任务 和 
Reduce 任务 分 发 给 空闲 的 TaskTracker, 让 这 些 任 务 并 行 运行 ,并 负责 监控 任务 的 运行 情 
况 。 如 果 某 一 个 TaskTracker 出 故障 了 ,JobTracker 会 将 其 负责 的 任务 转交 给 另 一 个 空闲 
的 TaskTracker 重新 运行 。 

3. 本 地 计算 

数据 存储 在 哪 一 台 计算 机 上 ,就 由 这 台 计 算 机 进行 这 部 分 数据 的 计算 ,这 样 可 以 减少 数 
据 在 网 络 上 的 传输 ,降低 对 网 络 带宽 的 需求 。 在 Hadoop 这 样 的 基于 集群 的 分 布 式 并 行 系 
统 中 ,计算 节点 可 以 很 方便 地 扩充 ,因而 它 的 计算 能 力 几乎 是 无 限 的 。 但 是 由 于 数据 需要 在 
不 同 的 计算 机 之 间 流 动 , 故 网 络 带宽 变 成 了 瓶颈 ,是 非常 宝贵 的 .“ 本 地 计算 ?是 最 有 效 的 一 
种 节约 网 络 带宽 的 手段 ,业界 将 其 形容 为 “移动 计算 比 移动 数据 更 经 济 ”。 

4. 任务 粒度 

把 原始 大 数据 集 切 割 成 小 数据 集 时 ,通常 让 小 数据 集 小 于 或 等 于 HDFS 中 一 个 块 的 大 
小 (默认 是 128MB) ,这 样 能 够 保证 一 个 小 数据 集 位 于 一 台 计 算 机 上 ,便于 本 地 计算 。 有 
M 个 小 数据 集 待 处 理 ,就 启动 M 个 Map 任务 ,注意 这 M 个 Map 任务 分 布 于 N 台 计 算 机 上 
并 行 运 行 ,Reduce 任务 的 数量 R 则 可 由 用 户 指 定 。 

5. 数据 分 割 

把 Map 任务 输出 的 中 间 结 果 按 key 的 范围 划分 成 尺 份 (R 是 预先 定义 的 Reduce 任务 
的 个 数 ) ,划分 时 通常 使 用 Hash 函数 ,如 hash(key) mod R, 这 样 可 以 保证 某 一 段 范围 内 的 
key ,一 定 是 由 一 个 Reduce 任务 来 处 理 , 可 以 简化 Reduce 的 过 程 。 

6. 数据 合并 

在 partition 之 前 ,还 可 以 对 中 间 结 果 先 做 合并 (combine) ,即将 中 间 结 果 中 有 相同 key 
的 二 key,value 二 对 合并 成 一 对 。 合 并 的 过 程 与 Reduce 函数 的 过 程 类 似 , 很 多 情况 下 就 可 
以 直接 使 用 Reduce 函数 ,但 合并 是 作为 Map 任务 的 一 部 分 ,在 执行 完 Map 函数 后 紧 接着 
执行 的 。 合 并 能 够 减少 中 间 结 果 中 二 key,value 二 对 的 数目 ,从 而 减少 网 络 流量 。 

7. reduce 任务 

Map 任务 的 中 间 结 果 在 做 完 合并 和 分 区 之 后 ,以 文件 形式 存 于 本 地 磁盘 。 中 间 结 果 文 
件 的 位 置 会 通知 主 控 , 再 通知 Reduce 任务 到 哪 一 个 DataNode 上 去 取 中 间 结 果 。 注 意 , 所 
有 的 Map 任务 产生 中 间 结 果 均 按 其 key 用 同一 个 Hash 函数 划分 成 了 R 份 ,R 个 Reduce 


任务 各 自负 责 一 段 key 区 间 。 每 个 Reduce 函数 需要 向 许多 个 Map 任务 节点 取得 落 在 其 负 
责 的 key 区 间 内 的 中 间 结 果 , 然 后 执行 Reduce 函数 ,形成 一 个 最 终 的 结果 文件 。 

8. 任务 管道 

H R Â Reduce 任务 ,就 会 有 尺 个 最 终结 果 , 很 多 情况 下 这 尺 个 最 终结 果 并 不 需要 合并 
成 一 个 最 终结 果 。 因 为 这 R 个 最 终结 果 又 可 以 作为 另 一 个 计算 任务 的 输入 ,开始 另 一 个 并 
行 计算 任务 。 


2.2.3 Hadoop 生态 系统 


现代 社会 中 ,Hadoop 已 经 成 为 一 个 庞大 的 体系 ,只 要 和 海量 数据 相关 的 领域 就 会 有 
Hadoop 的 身影 。Hadoop 的 核心 是 HDFS 和 MapReduce。Hadoop 的 生态 系统 如 图 2-4 


所 示 。 
Ambari 
(安装 、 部 署 、 配 置 和 管理 工具 ) 
一 Hive | Pig Mahout 5 B 
时 GUERE) j| (数据 流 处 理 ) 狼 (数据 控 气 库 ) || E a 
g b = ja 
2 a 
| |2% = 
a È T 下 MapReduce 
ŠE ba (分 布 式 计算 框架 ) 
$ 2 
HDFS 
C | (分 布 式 文件 系统 ) 
图 2-4 Hadoop 生态 系统 
1, HDFS 


HDFS 源 自 于 Google 的 GFS 论文 ,发 表 于 2003 年 10 月 ,HDFS 是 GFS 的 克隆 版 。 
HDFS 是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 是 一 个 高 度 容 错 的 系统 ,能 检测 和 应 对 
硬件 故障 ,用 于 在 低 成 本 的 通用 硬件 上 运行 。HDFS 简化 了 文件 的 一 致 性 模型 ,通过 流 式 数 
据 访问 ,提供 高 吞吐 量 应 用 程序 数据 访问 功能 ,适合 带 有 大 型 数据 集 的 应 用 程序 。 

2. MapReduce 

MapReduce if AF Google 的 MapReduce 论文 ,发 表 于 2004 年 12 月 ,而 Hadoop 
MapReduce 是 Google MapReduce 的 克隆 版 。MapReduce 是 一 种 计算 模型 ,用 于 进行 大 数据 量 
的 计算 。 其 中 ,Map 对 数据 集 上 的 独立 元 素 进行 指定 的 操作 ,生成 键 - 值 对 形式 的 中 间 结 果 。 
Reduce 则 对 中 间 结 果 中 相同 “ 键 " 的 所 有 “ 值 ” 进 行规 约 , 以 得 到 最 终结 果 。MapReduce 这 样 的 
功能 划分 ,非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 环境 里 进行 数据 处 理 。 

3. Hive 

Hive 由 facebook 开源 ,最 初 用 于 解决 海量 结构 化 的 日 志 数 据 统计 间 题 。Hive 定义 了 
一 种 类 似 SQL 的 查询 语言 (HQL) ,将 SQL 转化 为 MapReduce 任务 在 Hadoop 上 执行 , 通 
常用 于 离线 分 析 。 


4. HBase 

HBase ffi A Google 的 Bigtable 论文 ,发 表 于 2006 年 11 月 .HBase 是 Google Bigtable 
的 克隆 版 。HBase 是 一 个 针对 结构 化 数据 的 可 伸缩 高 可 靠 、 高 性 能 ,分布 式 和 面向 列 的 动 
态 模式 数据 库 。 和 传统 关系 数据 库 不 同 , HBase 采用 了 BigTable 的 数据 模型 : 143R NY Hi Di 
排序 映射 表 (key/value)。 其 中 , 键 由 行 关 键 字 、 列 关键 字 和 时 间 戳 构成 。HBase 提供 了 对 
大 规模 数据 的 随机 、 实 时 读 写 访问 ,同时 ,HBase 中 保存 的 数据 可 以 使 用 MapReduce 来 处 
理 , 它 将 数据 存储 和 并 行 计算 完美 地 结合 在 一 起 。 

5. Zookeeper 

Zookeeper W A Google 的 Chubby 论文 ,发 表 于 2006 年 11 H , Zookeeper 是 Chubby 
的 克隆 版 。 解 决 分 布 式 环境 下 的 数据 管理 问题 : 统一 命名 .状态 同步 ,集群 管理 .配置 同 
步 等 。 

6. Sqoop 

Sqoop 是 SQL-to-Hadoop 的 缩写 ,主要 用 于 传统 数据 库 和 Hadoop 之 间 传 输 数据 。 数 
据 的 导入 和 导出 本 质 上 是 MapReduce 程序 ,充分 利用 了 MR 的 并 行 化 和 容错 性 。 

7. Pig 

Pig 由 Yahoo 开源 ,其 设计 动机 是 提供 一 种 基于 MapReduce 的 ad 一 hoc( 计 算 在 query 
时 发 生 ) 数 据 分 析 工 具 。 定 义 了 一 种 数据 流 语言 Pig Latin ,将 脚本 转换 为 MapReduce 任务 
在 Hadoop 上 执行 ,通常 用 于 离线 分 析 。 

8. Mahout 

Mahout 起 源 于 2008 年 ,最 初 是 Apache Lucent 的 子 项 目 , 它 在 极 短 的 时 间 内 取得 了 长 
足 的 发 展 ,现在 是 Apache 的 顶级 项 目 。Mahout 的 主要 目标 是 创建 一 些 可 扩展 的 机 器 学 习 
领域 经 典 算法 的 实现 , 旨 在 帮助 开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahonut 现 
在 已 经 包含 了 聚 类 、 分 类 推荐 引擎 (协同 过 滤 ) 和 频繁 集 挖掘 等 广泛 使 用 的 数据 挖掘 方法 。 
除了 算法 ,Mahout 还 包含 数据 的 输入 /输出 工具 ,与 其 他 存储 系统 (如 数据 库 .MongoDB 或 
Cassandra) 集 成 等 数据 挖掘 支持 架构 。 

9. Flume 

Flume 是 Cloudera 开源 的 日 志 收 集 系统 ,具有 分 布 式 、 高 可 靠 、 高 容错 、 易 于 定制 和 扩 
展 的 特点 。 它 将 数据 从 产生 传输 、 处 理 并 最 终 写 和 目标 路 径 的 过 程 抽象 为 数据 流 , 在 具体 
的 数据 流 中 ,数据 源 支持 在 Flume 中 定制 数据 发 送 方 , 从 而 支持 收集 各 种 不 同 协议 数据 。 
同时 ,Flume 数据 流 提供 对 日 志 数 据 进 行 简单 处 理 的 能 力 ,如 过 滤 、 格 式 转 换 等 。 此 外 ， 
Flume 还 具有 能 够 将 日 志 写 入 各 种 数据 目标 (可 定制 ) 的 能 力 。 总 的 来 说 ,Flume 是 一 个 可 
扩展 、 适 合 复 杂 环 境 的 海量 日 志 收 集 系统 。 


2.3 Hadoop 与 其 他 系统 


2.3.1 Hadoop 与 关系 型 数据 库 管 理 系统 


现代 社会 ,数据 库 已 不 再 对 大 量 磁盘 上 的 大 规模 数据 进行 批量 分 析 , 因 为 对 磁盘 的 寻 址 
时 间 的 提高 远 远 慢 于 传输 速率 的 提高 ,如果 数据 的 访问 模式 中 包含 大 量 的 磁盘 寻 址 ,那么 读 


取 大 量 数据 集 所 花 的 时 间 势 必 会 更 长 于 流 式 数 据 读 取 模 式 。 另 一 方面 ,如 果 数 据 库 系 统 只 
更 新 一 小 部 分 ,那么 使 用 传统 的 关系 型 数据 库 则 更 有 优势 ,但 数据 系统 在 更 新 大 部 分 数据 
时 ,使 用 关系 型 数据 库 的 效率 就 比 MapReduce 低 得 多 ,因为 需要 使 用 排序 /合并 来 重建 数据 
库 。 在 很 多 情况 下 ,MapReduce 也 可 以 看 作 是 关系 型 数据 库 管 理 系统 的 补充 ,两 个 系统 之 
间 的 差异 见 表 2-1。 

表 2-1 关系 型 数据 库 和 MapReduce 的 比较 


比较 项 | 传统 关系 型 数据 库 MapReduce 比较 项 | 传统 关系 型 数据 库 MapReduce 
数据 大 小 | 吉 字 节 (GB) 级 拍 字 节 (PB) 级 结构 静态 模式 动态 模式 
访问 交互 式 和 批 处 理 | 批 处 理 完整 性 高 底 

更 新 多 次 读 写 一 次 写 人 多 次 读 取 | 横向 扩展 非 线性 线性 


MapReduce 比较 适合 以 批 处 理 的 方式 处 理 所 需 要 分 析 的 整个 数据 集 的 问题 ,而 关系 型 
数据 库 适 用 于 点 查询 和 更 新 ,数据 集 被 索引 后 ,数据 库 系 统 能 够 提供 低 延 迟 的 数据 检索 和 快 
速 的 少量 数据 更 新 ,MapReduce 适合 一 次 写 信 .多 次 读 取 数据 的 应 用 ,而 关系 型 数据 库 更 适 
合 持续 更 新 的 数据 集 。 

MapReduce 和 关系 型 之 间 的 另 一 个 区 别 在 于 它们 所 操作 的 数据 集 的 结构 化 程度 。 结 
构 化 数据 是 具有 既定 格式 的 实体 化 数据 ,例如 满足 XML 文档 或 特定 预定 义 格式 的 数据 库 
表 。 这 是 RDBMS 包括 的 内 容 。 另 一 方面 , 半 结 构 化 数据 比较 松散 ,虽然 可 能 有 格式 ,但 经 
常 被 忽略 ,所 以 它 只 能 用 做 对 数据 结构 的 一 般 指导 。 例 如 ,一 张 电 子 表格 ,其 结构 是 由 单元 
格 组 成 的 网 格 ,但 是 每 个 单元 格 自 身 可 保存 任何 形式 的 数据 。 分 结构 化 数据 没有 什么 特别 
的 内 部 结构 ,例如 纯 文本 或 图 像 数 据 。MapReduce 对 于 非 结 构 化 或 半 结 构 化 数据 非常 有 
效 , 因 为 在 处 理 数据 时 才 对 数据 进行 解释 。 换 句 话 说 , MapReduce 输入 的 键 和 值 并 不 是 数 
据 固有 的 属性 ,而 是 由 分 析 数 据 的 人 员 来 选择 的 。 

关系 型 数据 库 往 往 是 规范 的 ,以 保持 数据 的 完整 性 且 不 含 元 余 。 规 范 化 给 MapReduce 
带 来 了 问题 ,因为 它 使 记录 读 取 成 为 异地 操作 ,然而 MapReduce 的 核心 假设 之 一 是 ,记录 可 
以 进行 流 式 读 写 操作 。Web 服务 器 日 志 是 一 个 典型 的 非 规 范 化 数据 记录 ,例如 每 次 都 需要 
记录 客户 端 主机 全 名 ,导致 同一 客户 端 全 名 可 能 会 多 次 出 现 , 这 也 是 MapReduce 非常 适合 
用 于 分 析 各 种 日 志文 件 的 原因 之 一 。MapReduce 是 一 种 线性 可 伸缩 的 编程 模型 。 程 序 员 
编写 两 个 函数 ,分别 为 Map 函数 和 Reduce 函数 ,每 个 函数 定义 一 个 键 / 值 对 集合 到 另 一 个 
键 / 值 对 集合 的 映射 。 这 些 函 数 无 须 关 注 数据 集 及 其 所 用 集群 的 大 小 ,因此 可 以 原封 不 动 地 
应 用 到 小 规模 数据 集 或 大 规模 的 数据 集 上 。 更 重要 的 是 ,如 果 输 入 的 数据 量 是 原来 的 两 倍 ， 
那么 运行 的 时 间 也 需要 两 倍 。 但 是 如 果 集 群 是 原来 的 两 倍 ,作业 的 运行 仍然 与 原来 一 样 快 。 
SQL 查询 一 般 不 具备 该 特性 。 

随 着 时 间 的 流逝 ,社会 的 不 断 发 展 ,在 不 久 的 将 来 关系 型 数据 库 系 统 和 MapReduce 系 
统 之 间 的 差异 很 可 能 变 得 模糊 。 一 方面 ,关系 型 数据 库 开 始 吸收 MapReduce 的 一 些 思路 
(如 Aster DATA 的 和 GreenPlum 的 数据 库 ); 另 一 方面 ,基于 MapReduce 的 高 级 查询 语言 
(如 Pig 和 Hive) 使 得 MapReduce 的 系统 更 接近 传统 的 数据 库 编 程 方式 。 


2.3.2 Hadoop 与 云 计 算 


云 计 算 和 大 数据 在 很 大 程度 上 是 相辅相成 的 。 两 者 最 大 的 区 别 在 于 , 云 计算 是 正在 做 
的 事情 ,大 数据 则 是 所 拥有 的 事物 。 云 计算 对 于 普通 人 来 说 就 像 云 一 样 ,一 直 没 有 机 会 真正 
地 感受 到 ,而 大 数据 则 更 加 实际 ,是 确 确实 实 能 够 改变 人 们 生活 的 事物 。Hadoop 从 某 个 方 
面 来 说 ,与 大 数据 结合 得 更 加 紧密 。 

目前 , 现 有 的 计算 机 技术 远 远 赶 不 上 数据 的 增长 ,设计 最 合理 的 分 层 存储 架构 已 成 为 信 
息 系统 的 关键 。 分 布 式 存储 架构 不 仅 需 要 Scala Up 式 的 可 扩展 性 ,也 需要 Scala Out 式 的 
可 扩展 性 ,因此 大 数据 处 理 离 不 开 云 计算 技术 , 云 计 算 可 为 大 数据 提供 弹性 可 扩展 的 基础 设 
施 支撑 环境 以 及 数据 服务 的 高 效 模式 ,大 数据 则 为 云 计算 提 供 了 新 的 商业 价值 ,大 数据 技术 
与 云 计 算 技 术 必 将 更 完美 地 结合 。 

云 计算 的 关键 技术 包括 分 布 式 并 行 计算 、 分 布 式 存储 以 及 分 布 式 数据 管理 技术 ,而 
Hadoop 就 是 一 个 实现 了 Google 云 计算 系统 的 开源 平台 ,包括 并 行 计算 模 型 MapReduce、 
分 布 式 文件 系统 HDFS, 以 及 分 布 式 数据 库 HBase, 同 时 Hadoop 的 相关 项 目 也 很 丰富 , 包 
括 Zookeeper、Pig、Chukwa、Hive、HBase、Mahout 等 。 总 而 言 之 ,用 一 句 话 概括 就 是 云 计算 
因 大 数据 问题 而 生 ,大 数据 驱动 了 云 计算 的 发 展 , 而 Hadoop 在 大 数据 和 云 计算 之 间 建 立 起 
了 一 座 坚 实 可 靠 的 桥梁 。 
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2.4.1 Hadoop 在 百度 的 应 用 


百度 作为 全 球 最 大 的 中 文 搜索 引擎 公司 ,提供 基于 搜索 引擎 的 各 种 产品 ,包括 以 网 络 搜 
索 为 主 的 功能 性 搜索 ,以 贴吧 为 主 的 社区 搜索 ,针对 区 域 . 行 业 的 垂直 搜索 ,MP3 音乐 搜索 ， 
以 及 百科 等 ,几乎 覆盖 了 中 文 网 络 世 界 中 所 有 的 搜索 需求 。 

百度 对 海量 数据 处 理 的 要 求 是 比较 高 的 ,要 在 线 下 对 数据 进行 分 析 , 还 要 在 规定 的 时 间 
内 处 理 完 并 反馈 到 平台 上 。 在 百度 , Hadoop 主要 应 用 于 以 下 几 个 方面 。 

(1) 数据 挖掘 与 分 析 。 

(2) 日 志 分 析 平 台 。 

(3) 数据 仓库 系统 。 

(4) 推荐 引擎 系统 。 

(5) 用 户 行为 分 析 系 统 。 

但 是 百度 在 使 用 Hadoop 时 也 遇 到 了 如 下 一 些 问题 。 

(1) MapReduce 的 效率 问题 。 

(2) HDFS 的 效率 和 可 靠 性 问题 。 

G) 内 存 使 用 的 问题 。 

(4) 作业 调度 的 问题 。 

(5) 性 能 提升 的 问题 。 

(6) 健壮 性 的 问题 。 


(7) Streaming 局 限 性 的 问题 。 

(8) 用 户 认 证 的 问题 。 

因此 ,百度 为 了 更 好 地 用 Hadoop 进行 数据 处 理 , 在 以 下 几 个 方面 做 了 改进 和 调整 。 

1. 调整 MapReduce 策略 

(1) 限制 作业 处 于 运行 状态 的 任务 数 。 

(2) 调整 预测 执行 策略 ,控制 预测 执行 量 , 一 些 任务 不 需要 预测 执行 。 

(3) 根据 节点 内 存 状况 进行 调度 。 

(4) 平衡 中 间 结 果 输 出 ,通过 压缩 处 理 减 少 IO 负担 。 

2. 改进 HDFS 的 效率 和 功能 

(1) 权限 控制 。 在 拍 字 节 (PB) 级 数据 量 的 集群 上 数据 应 该 是 共享 的 ,这 样 分 析 起 来 比 
较 容 易 , 但 是 需要 对 权限 进行 限制 。 

(2) 让 分 区 与 节点 独立 。 这 样 .一 个 分 区 坏 掉 后 节点 上 的 其 他 分 区 还 可 以 正常 使 用 。 

(3) 修改 DFSClient 选取 块 副本 位 置 的 策略 ,增加 功能 使 DFSClient 选取 块 时 跳 过 出 
错 的 DataNode。 

(4) 解决 VFS(Virtual File System) 的 POSIX(Portable Operating System Interface of 
Unix) 兼 容 性 问题 。 

3. 修改 Speculative 的 执行 策略 

(1) 采用 速率 倒数 替代 速率 ,防止 数据 分 布 不 均 时 经 常 不 能 启动 预测 执行 情况 的 发 生 。 

(2) 增加 任务 时 ,必须 达到 某 个 百分比 后 才能 启动 预测 执行 的 限制 ,解决 Reduce 运行 
等 待 Map 数据 的 时 间 问 题 。 

(3) 只 有 一 个 Map 或 Reduce 时 ,可 以 直接 启动 预测 执行 。 

4. 对 资源 使 用 进行 控制 

(1) 对 应 用 物理 内 存 进行 控制 。 如 果 内 存 使 用 过 多 会 导致 操作 系统 跳 过 一 些 任 务 , 百 
度 通过 修改 Linux 内 核对 进程 使 用 的 物理 内 存 进 行 独立 的 限制 ,超过 阔 值 可 以 终止 进程 。 

(2) 分 组 调度 计算 资源 ,实现 存储 共享 .计算 独立 ,在 Hadoop 中 运行 的 进程 是 不 可 抢 
占 的 。 

(3) 在 大 块 文件 系统 中 ,X86 平台 下 一 个 页 的 大 小 是 4KB。 如 果 页 较 小 ,管理 的 数据 就 
会 很 多 ,会 增加 数据 操作 的 代价 并 影响 计算 效率 ,因此 需要 增加 页 的 大 小 。 

百度 在 2006 年 就 开始 关注 Hadoop 并 开始 调研 和 使 用 ,在 2012 年 其 总 的 集群 规模 达 
到 近 十 个 , 单 集群 超过 2 800 台 机 器 节点 ,Hadoop 机 器 总 数 有 上 万 台 机 器 ,总 的 存储 容量 超 
过 100PB, 已 经 使 用 的 超过 74PB, 每 天 提交 的 作业 数目 也 有 数 千 个 之 多 ,每 天 的 输入 数据 量 
已 经 超过 7 500PB ,输出 超过 1 700TB。 同 时 ,百度 在 Hadoop 的 基础 上 还 开发 了 自己 的 日 
志 分 析 品 台 、 数 据 仓库 系统 ,以 及 统一 的 C++ 编程 接口 ,并 对 Hadoop 进行 深度 改造 ,开发 
了 Hadoop C++ 扩展 HCE 系统 。 


2.4.2 Hadoop 在 Yahoo! 的 应 用 


关于 Hadoop 技术 的 研究 和 应 用 ,Yahoo! 始终 处 于 领先 地 位 , 它 不 但 将 Hadoop 应 用 
于 自己 的 各 种 产品 中 ,还 包括 数据 分 析 、 内 容 优 化 、 反 垃圾 邮件 系统 、 广 告 的 优化 选择 、 大 数 
据 处 理 和 ETL 等 ;同时 ,还 在 用 户 兴趣 预测 .搜索 排名 .广告 定位 等 方面 进行 了 充分 的 应 用 。 


在 Yahoo! 主页 个 性 化 方面 ,实时 服务 系统 通过 Apache 从 数据 库 中 读 取 user 到 
interest 的 映射 ,并 且 每 隔 5 分 钟 生产 环境 中 的 Hadoop 集群 就 会 基于 最 新 数据 重新 排列 内 
容 , 每 隔 7 分 钟 就 在 页 面 上 更 新 内 容 。 

在 邮箱 方面 ,Yahoo! 利用 Hadoop 集群 根据 垃圾 邮件 模式 为 邮件 计 分 ,并 且 每 隔 几 个 
小 时 就 在 集群 上 改进 反 垃圾 邮件 模型 ,集群 系统 每 天 还 可 以 推动 50 亿 次 的 邮件 投递 。 

目前 ,Hadoop 最 大 的 生产 应 用 是 Yahoo! 的 Search Webmap 应 用 , 它 运 行 在 超过 
10 000 台 机 器 的 Linux 系统 集群 里 ,Yahoo! 的 网 页 搜索 查询 使 用 的 就 是 它 产生 的 数据 。 
Webmap 的 构建 步骤 如 下 : 首先 进行 网 页 的 候 取 ,同时 产生 包含 所 有 已 知 网 页 和 互联 网 站 
点 的 数据 库 , 以 及 一 个 关于 所 有 页 面 及 站 点 的 海量 数据 组 ;然后 将 这 些 数据 传输 给 Yahoo! 
搜索 中 心 执行 排序 算法 。 在 整个 过 程 中 ,索引 中 页 面 间 的 链接 数量 将 会 达到 1TB, 经 过 压 
缩 的 数据 产 出 量 会 达到 300TB, 运 行 一 个 MapReduce 任务 就 需 使 用 超过 10 000 的 内 核 ,而 
在 生产 环境 中 使 用 数据 的 存储 量 超过 5PB。 

Yahoo! 在 Hadoop 中 同时 使 用 了 Hive 和 Pig。 在 许多 人 看 来 , Hive 和 Pig 大 体 上 相 
似 , 而 且 Pig Latin 与 SQL 也 十 分 相似 。 那 么 Yahoo! 为 什么 要 同时 使 用 这 些 技术 呢 ? E 
要 是 因为 Yahoo! 的 研究 人 员 在 查看 了 它们 的 工作 负载 并 分 析 了 应 用 案例 后 认为 ,不 同 的 
情况 下 需要 使 用 不 同 的 工具 。 

先 了 解 一 下 大 规模 数据 的 使 用 和 处 理 背 景 。 大 规模 的 数据 处 理 经 常 分 为 三 个 不 同 的 任 
务 : 数据 收集 ,数据 准备 和 数据 表示 。 这 里 并 不 打算 介绍 数据 收集 阶段 ,因为 Pig 和 Hive 
主要 用 于 数据 准备 和 数据 表示 阶段 。 

数据 准备 阶段 通常 被 认为 是 提取 、 转 换 和 加 载 (Extract Transform Load,ETL) 数 据 的 
阶段 ,或 者 认为 这 个 阶段 是 数据 工厂 。 这 里 的 数据 工厂 只 是 一 个 类 比 ,在 现实 生活 中 的 工厂 
接收 原材料 后 会 生产 出 客户 所 需 的 产品 ,而 数据 工厂 与 之 相似 , 它 在 接收 原始 数据 后 ,可 以 
输出 供 客户 使 用 的 数据 集 。 这 个 阶段 需要 装载 和 清洗 原始 数据 ,并 让 它 遵守 特定 的 数据 模 
型 ,还 要 尽 可 能 地 让 它 与 其 他 数据 源 结合 等 。 这 一 阶段 的 客户 一 般 都 是 程序 员 数据 专家 或 
研究 者 。 

数据 表示 阶段 一 般 指 的 都 是 数据 仓库 ,数据 仓库 存储 了 客户 所 需要 的 产品 ,客户 会 根据 
需要 选取 合适 的 产品 。 这 一 阶段 的 客户 可 能 是 系统 的 数据 工程 师 、 分 析 师 或 决策 者 。 

根据 每 个 阶段 负载 和 用 户 情况 的 不 同 , Yahoo! 在 不 同 的 阶段 使 用 不 同 的 工具 。 结 合 
了 诸如 Oozie 等 工作 流 系统 的 Pig 特别 适合 于 数据 工厂 ,而 Hive 则 适合 于 数据 仓库 。 下 面 
将 分 别 介绍 数据 工厂 和 数据 仓库 。 

Yahoo! 的 数据 工厂 存在 三 种 不 同 的 工作 用 途 : 流水 线 、 和 迭代 处 理 和 科学 研究 。 

经 典 的 数据 流水 线 包 括 数 据 反 馈 、 清 洗 和 转换 。 一 个 常见 例子 是 Yahoo! 的 网 络 服务 
器 日 志 , 这 些 日 志 需 要 进行 清洗 以 去 除 不 必要 的 信息 ,数据 转换 则 是 要 找到 点 击 之 后 所 转 到 
的 页 面 。Pig 是 分 析 大 规模 数据 集 的 平台 , 它 建立 在 Hadoop 之 上 ,并 提供 了 良好 的 编程 环 
境 、 优 化 条 件 和 可 扩展 的 性 能 。Pig Latin 是 关系 型 数据 流 语言 ,并 且 是 Pig 核心 的 一 部 分 ， 
基于 以 下 的 原因 ,Pig Latin 相 比 于 SQL 而 言 ,更 适合 构建 数据 流 。 首 先 ,Pig Latin 是 面向 
过 程 的 ,并 且 Pig Latin 允许 流水 线 开 发 者 自 定 义 流水 线 中 检查 点 的 位 置 ;其 次 ,Pig Latin 
允许 开发 者 直接 选择 特定 的 操作 实现 方式 而 不 是 依赖 于 优化 器 ;最 后 ,Pig Latin 支持 流水 
线 的 分 支 ,并 且 Pig Latin 允许 流水 线 开 发 者 在 数据 流水 线 的 任何 地 方 插入 自己 的 代码 。 


Pig 和 诸如 Oozie 等 的 工作 流 工具 一 起 使 用 创建 流水 线 , 一 天 可 以 运行 数 以 万 计 的 Pig 
作业 。 

迭代 处 理 也 是 需要 Pig 的 ,在 这 种 情况 下 通常 需要 维护 一 个 大 规模 的 数据 集 。 数 据 集 
上 的 典型 处 理 包括 加 入 一 小 片 数 据 后 就 会 改变 大 规模 数据 集 的 状态 。 如 考虑 这 样 一 个 数据 
集 , 它 存储 了 Yahoo! 新 闻 中 现 有 的 所 有 新 闻 。 可 以 把 它 想 象 成 一 幅 巨 大 的 图 ,每 个 新 闻 就 
是 一 个 节点 ,新 闻 节点 车 有 边 相 连 则 说 明 这 些 新 闻 指 的 是 同一 个 事件 。 每 隔 几 分 钟 就 会 有 
新 的 新 闻 加 入 进来 ,这 些 工具 需要 将 这 些 新 闻 节 点 加 到 图 中 ,并 找到 相似 的 新 闻 节 点 用 边 连 
接 起 来 ,还 要 删除 被 新 节点 覆盖 的 旧 节 点 。 这 和 标准 流水 线 不 同 的 是 它 不 断 有 小 变化 ,这 就 
需要 使 用 增长 处 理 模 型 在 合理 的 时 间 范 围 内 处 理 这 些 数据 了 。 例 如 ,所 有 的 新 节点 加 入 图 
中 后 ,又 有 一 批 新 的 新 闻 节 点 到 达 , 在 整个 图 上 重新 执行 连接 操作 是 不 现实 的 ,这 也 许 会 花 
费 数 个 小 时 。 相 反 ,在 新 增加 的 节点 上 执行 连接 操作 并 使 用 全 连接 (Full Join) 的 结果 是 可 
行 的 ,而 且 这 个 过 程 只 需要 花费 几 分 钟 时 间 。 标 准 的 数据 库 操作 可 以 使 用 Pig Latin 通过 上 
述 方式 实现 ,这 时 Pig 就 会 得 到 很 好 的 应 用 。 

Yahoo! 的 许多 科研 人 员 需 要 用 网 格 工 具 处 理 千 万 亿 大 小 的 数据 ,并 希望 快速 地 写 出 
脚本 来 测试 自己 的 理论 或 获得 更 深 的 理解 。 但 是 在 数据 工厂 中 ,数据 不 是 以 一 种 友好 的 、 标 
准 的 方式 呈现 的 ,这 时 Pig 就 可 以 大 显 身手 了 ,因为 它 可 以 处 理 未 知 模式 的 数据 ,还 有 半 结 
构 化 和 非 结 构 化 的 数据 。Pig 与 Streaming 相 结合 使 得 研究 者 在 小 规模 数据 集 上 测试 的 
Perl 和 Python 脚本 可 以 很 方便 地 在 大 规模 数据 集 上 运行 。 

在 数据 仓库 处 理 阶段 ,有 两 个 主要 的 应 用 : 商业 智能 分 析 和 特定 查询 (Ad-hoc query). 
在 第 一 种 情况 下 ,用 户 将 数据 连接 到 商业 智能 (BITD) 工具 (如 MicroStrategy) 上 ,来 产生 报告 
或 进行 深入 的 分 析 。 在 第 二 种 情况 下 ,用 户 执行 数据 分 析 师 或 决策 者 的 特定 查询 。 这 两 种 
情况 下 ,关系 模型 和 SQL 都 很 好 用 。 事 实 上 ,数据 仓库 已 经 成 为 SQL 使 用 的 核心 , 它 支 持 
多 种 查询 ,并 具有 分 析 师 所 需 的 工具 。Hive 作为 Hadoop 的 子 项 目 , 为 其 提供 了 SQL 接口 
和 关系 模型 。 现 在 , Hive 团队 正 开 始 将 Hive 与 BI 工具 通过 接口 (如 ODBC) 结 合 起 来 
使 用 。 

Pig 在 Yahoo! 得 到 了 广泛 应 用 ,这 使 得 数据 工厂 的 数据 被 移植 到 Hadoop 上 运行 成 为 
可 能 。 随 着 Hive 的 深入 使 用 , Yahoo! 打算 将 数据 仓库 移植 到 Hadoop 上 。 在 同一 系统 
上 ,部 署 数据 工厂 和 数据 仓库 将 会 降低 数据 加 载 到 仓库 的 时 间 ,这 也 使 得 共享 工厂 和 仓库 之 
间 的 数据 管理 工具 、 硬 件 等 成 为 可 能 。Yahool! 在 Hadoop 上 同时 使 用 多 种 工具 ,使 
Hadoop 能 够 执行 更 多 的 数据 处 理 。 


2.4.3 Hadoop 在 eBay 的 应 用 


Hadoop 是 建立 在 商业 硬件 上 的 容错 、 可 扩展 、 分 布 式 的 云 计算 框架 ,在 eBay 上 存储 着 
上 亿 种 商品 的 信息 ,而 且 每 天 有 数 百 万 种 的 新 商品 增加 ,因此 需要 用 云 系统 来 存储 和 处 理 拍 
字 节 (PB) 级 别 的 数据 ,而 Hadoop 则 是 个 很 好 的 选择 。eBay 利用 Hadoop 建立 了 一 个 大 规 
模 的 集群 系统 一 一 Athena。Atjema 被 分 为 五 层 。 

(1) 最 底层 是 Hadoop 的 核心 屋 。 核 心 层 包 括 Hadoop 运行 时 的 环境 ,一些 通用 设施 和 
HDFS。 其 中 ,文件 系统 为 读 写 大 块 数据 而 做 了 一 些 优化 ,如 将 块 的 大 小 由 128MB 改 
为 256MB。 


(2) 核心 层 之 上 是 MapReduce 层 , 为 开发 和 执行 任务 提供 API 和 控件 。 

(3) MapReduce 层 之 上 是 数据 获取 层 。 现 在 数据 获取 层 的 主要 框架 是 HBase、Pig 
和 Hive。 

O HBase 是 根据 GoogleBigTable 开发 的 按 列 存储 的 多 维 空间 数据 库 ,通过 维护 数据 
的 划分 和 范围 提供 有 序 的 数据 ,其 数据 储存 在 HDFS 上 。 

© Pig(Latin) 是 提供 加 载 、 筛 选 、 转 换 、 提 取 、 聚 集 、 连 接 、 分 组 等 操作 的 面向 过 程 的 语 
言 , 开 发 者 使 用 Pig 建立 数据 管道 和 数据 工厂 。 

© Hive 是 用 于 建立 数据 仓库 的 使 用 SQL 语法 的 声明 性 语言 。 对 于 开发 者 、 产 品 经 理 
和 分 析 师 来 说 ,SQL 接口 使 得 Hive 成 为 很 好 的 选择 。 

(4) 数据 获取 层 之 上 是 工具 、 加 载 库 层 。UC4 是 eBay 从 多 个 数据 源 自动 加 载 数 据 的 企 
业 级 调度 程序 。 加 载 库 有 : 统计 库 (R) 、 机 器 学 习 库 (Mahout) 、 数 学 相关 库 (Hama) 和 eBay 
自己 开发 的 用 于 解析 网 络 日 志 的 库 (Mobius)。 

(5) 最 后 是 监视 和 警告 。Anglia 是 分 布 式 集群 的 监视 系统 ,Nagios 则 用 来 警告 一 些 关 
键 事件 ,如 服务 器 不 可 达 、 硬 盘 已 满 等 。 

eBay 的 企业 服务 器 运行 着 64 位 的 RedHat Linux。 

(1) NameNode 负责 管理 HDFS 的 主 服务 器 。 

(2) JobTracker 负责 任务 的 协调 。 

(3) HBaseMaster 负责 存储 HBase 存储 的 根 信息 ,并 且 方 便 与 数据 块 或 存 取 区 域 进行 
协调 。 

(4) ZooKeeper 是 保证 HBase 一 致 性 的 分 布 式 锁 协 调 器 。 

用 于 存储 和 计算 的 节点 是 LU 大 小 的 运行 CentOS 的 机 器 ,每 台 机 器 拥有 2 个 四 核 处 理 
器 和 2TB 大 小 的 存储 空间 ,每 38 一 42 个 节点 单元 为 一 个 rack, 从 而 构成 了 高 密度 网 格 。 有 
关 网 络 方面 ,顶层 rack 交换 机 到 节点 的 带宽 为 1Gbps, rack 交换 机 到 核心 交换 机 的 带宽 为 
40Gpbs。 

这 个 集群 是 eBay 内 多 个 团队 共同 使 用 的 ,包括 产品 和 一 次 性 任务 。 这 里 使 用 Hadoop 
公平 调度 器 (Fair Scheduler) 来 管理 分 配 ,定义 团队 的 任务 池 、 分 配 权限 .限制 每 个 用 户 和 组 
的 并 行 任 务 、 设 置 优先 权 期 限 和 延迟 调度 。 

eBay 的 系统 每 天 需要 处 理 8 一 10TB 的 新 数据 ,而 Hadoop 主要 用 于 以 下 工作 。 

(1) 基于 机 器 学 习 的 排序 。 使 用 Hadoop 计算 需要 考虑 多 个 因素 (如 价格 、 列 表格 式 、 
卖家 记录 、 相 关 性 ) 的 排序 函数 ,并 需要 添加 新 因素 来 验证 假设 的 扩展 功能 ,以 增强 eBay 物 
品 搜 索 的 相关 性 。 

(2) 对 物品 描述 数据 的 挖掘 。 在 完全 无 人 监管 的 方式 下 ,使 用 数据 挖掘 和 机 器 学 习 技 
术 将 物品 描述 清单 转化 为 与 物品 相关 的 键 / 值 对 ,以 扩大 分 类 的 覆盖 范围 。 

eBay 的 研究 人 员 在 系统 构建 和 使 用 过 程 中 遇 到 的 挑战 及 一 些 初步 计划 有 以 下 几 个 
方面 。 

(1) 可 扩展 性 。 当 前 , 主 系统 的 NameNode 拥有 扩展 的 功能 , 随 着 集群 的 文件 系统 不 断 
增长 ,需要 存储 大 量 的 元 数据 ,所 以 内 存 占 有 量 也 在 不 断 增 长 。 若 是 1PB 的 存储 量 , 则 需要 
将 近 1GB 的 内 存量 。 可 能 的 解决 方案 是 使 用 等 级 结构 的 命名 空间 划分 ,或 者 使 用 HBase 
和 ZooKeeper 联合 对 元 数据 进行 管理 。 


(2) 有 效 性 。NameNode 的 有 效 性 对 产品 的 工作 负载 很 重要 ,开源 社区 提出 了 一 些 备 
用 选择 ,如 使 用 检查 点 和 备份 节点 、 从 Secondary NameNode 中 转移 到 Avatar 节点 .日志 元 
数据 复制 技术 等 。eBay 研究 人 员 根 据 这 些 方法 建立 了 自己 的 产品 集群 。 

G) 数据 挖掘。 在 存储 非 结构 化 数据 的 系统 上 建立 支持 数据 管理 数据 挖掘 和 模式 管 
理 的 系统 。 新 的 计划 提议 将 Hive 的 元 数据 和 Owl 添加 到 新 系统 中 ,并 称 为 Howl。eBay 
研究 人 员 努 力 将 这 个 系统 联系 到 分 析 平 台 上 去 ,这 样 用 户 可 以 很 容易 地 在 不 同 的 数据 系统 
中 挖掘 数据 。 

(4) 数据 移动 。eBay 研究 人 员 考 虑 发 布 数据 转移 工具 ,这 个 工具 可 以 支持 在 不 同 的 子 
系统 (如 数据 仓库 和 HDFS) 之 间 进 行 数据 的 复制 。 

(5) 策略 。 通 过 配额 实现 较 好 的 归档 、 备 份 等 策略 (Hadoop 现 有 版 本 的 配额 需要 改 
进 )。eBay 的 研究 人 员 基 于 工作 负载 和 集群 的 特点 对 不 同 的 集群 确定 配额 。 

(6) 标准 。eBay 研究 人 员 开 发 健壮 的 工具 来 为 数据 来 源 、 消 耗 情况 、 预 算 情况 ,使 用 情 
况 等 进行 度量 。 

同时 ,eBay 正在 改变 收集 、 转 换 ,使 用 数据 的 方式 ,以 提供 更 好 的 商业 智能 服务 。 


本 章 小 结 


本 章 从 简 到 难 , 由 浅 入 深 地 描述 了 Hadoop 基本 概念 及 应 用 领域 ,主要 从 以 下 几 个 方面 
介绍 Hadoop 相关 知识 。 

(1) 从 Hadoop 的 简介 中 ,了 解 Hadoop 的 功能 和 作用 、 优 势 以 及 应 用 前 景 。 

(2) 深入 了 解 Hadoop ,涵盖 了 Hadoop 的 体系 结构 、 分 布 式 开发 与 生态 系统 三 大 部 分 
的 内 容 , 介 绍 了 Hadoop 是 如 何 做 到 并 行 计算 和 数据 管理 的 ,同时 体现 了 Hadoop 完整 的 数 
据 定义 和 体系 结构 。 

(3) Hadoop 与 其 他 系统 相 比 较 以 及 与 云 计算 的 关联 ,把 关系 型 数据 库 管理 系统 和 
MapReduce 做 了 对 比 , MapReduce 适合 一 次 写 入 ,多 次 读 取 数 据 的 应 用 ,而 关系 型 数据 库 更 
适合 持续 更 新 的 数据 集 。Hadoop 和 云 计算 中 盖 明 了 云 计 算 因 大 数据 问题 而 生 , 大 数据 驱 
动 了 云 计 算 的 发 展 ,Hadoop 则 是 在 大 数据 和 云 计算 之 间 建 立 起 了 一 座 坚实 可 靠 的 桥梁 。 

(4) 通过 讲解 Hadoop 在 百度 .Yahoo! 以 及 eBay 的 应 用 ,了 解 Hadoop 在 大 型 应 用 中 
扮演 的 角色 ,以 便 在 今后 的 应 用 中 根据 实际 要 求 修改 和 完善 Hadoop。 


习 题 


1. 选择 题 
(1) Hadoop 采用 ( ) 来 整合 分 布 式 文件 系统 上 的 数据 ,以 保证 分 析 和 处 理 数据 的 
高 效 。 
A. MapReduce B. HDFS C. Namenode D. Datanode 
(2)( ORFNI HDFS 数据 存储 。 
A. NameNode B. Jobracker 


C. Datanode D. secondaryNamenode 
(3) HDFS 默认 Block Size 的 是 ( 3 


A. 32MB B. 64MB C. 128MB D. 256MB 
(A) ( ，) 通 常 是 集群 的 最 主要 的 性 能 瓶颈 。 

A. CPU B. 网 络 C. 磁盘 D. 内 存 
(5) ( ，) 不 包含 在 Hadoop 生态 系统 中 。 

A. Hive B. MapReduce C. HDFS D. Spark 
2. 问答 题 


(1) 简要 介绍 Google 采集 系统 的 核心 组 件 。 

(2) 例 举 Hadoop 的 功能 作用 ,以 及 Hadoop 的 优势 是 什么 ? 

(3) Hadoop 的 体系 结构 是 怎样 的 ? 请 简要 说 明 。 

(4) Hadoop 与 大 数据 ` 云 计算 之 间 的 关系 是 什么 ,主要 起 什么 作用 ? 


UW it HDFS 


本 章 提 要 


在 第 1 章 时 已 经 了 解 到 ,Hadoop 是 Apache 组 织 正 在 推进 的 项 目 , 它 本 身 是 一 个 开源 
分 布 式 计 算 平台 。 它 的 基础 部 分 有 两 大 核心 内 容 , 分 别 是 并 行 计算 框架 MapReduce 和 分 布 
式 存 储 系 统 HDFS。Hadoop 的 存储 系统 HDFS 是 Google 的 GFS(Google File System) 的 
开源 实现 ,是 一 个 典型 的 主 从 架构 模型 系统 ,也 是 管理 大 型 分 布 式 数 据 密集 型 计算 的 可 扩展 
的 分 布 式 文件 系统 。HDFS 就 像 Hadoop 的 基石 一 般 , 为 分 布 式 计 算 框 架 MapReduce 提供 
底层 的 分 布 式 存储 支撑 。 

本 章 将 从 Hadoop 分 布 式 文件 系统 HDFS 的 基本 概念 讲 起 ,然后 描述 其 特性 .目标 、 核 
心 设 计 及 体系 结构 等 内 容 , 让 读者 在 学 习 本 章 的 内 容 后 能 对 Hadoop 的 存储 系统 有 一 个 系 
统 的 认识 和 理解 。 


31 HDFS 简介 


HDFS( Hadoop Distributed File System) 是 基于 流 数据 模式 访问 和 处 理 超 大 文件 的 需 
求 而 开发 的 ,是 一 个 分 布 式 文件 系统 。 它 是 Google 的 GFS 提出 之 后 出 现 的 另外 一 种 文件 
系统 。 它 有 一 定 高 度 的 容错 性 ,而 且 提 供 了 高 春 吐 量 的 数据 访问 ,非常 适合 应 用 在 大 规模 数 
据 集 上 。 

那么 ,HDFS 的 优点 有 哪些 呢 ? 

(1) 处 理 超大 文件 。 这 里 的 超大 文件 通常 是 指 百 MB、 甚 至 数 百 TB 大 小 的 文件 。 但 
是 ,目前 在 实际 应 用 中 ,HDFS 已 经 能 用 来 存储 管理 PB 级 的 数据 了 。 在 雅虎 ,Hadoop 集群 
也 已 经 扩展 到 了 4 000 个 节点 。 

(2) 流 式 的 访问 数据 。HDFS 的 设计 建立 在 “一 次 写 入 多 次 读 写 ?任务 的 基础 上 。 这 
意味 着 一 个 数据 集 一 旦 由 数据 源 生成 ,就 会 被 复制 分 发 到 不 同 的 存储 节点 中 ,然后 响应 各 种 
各 样 的 数据 分 析 任 务 请 求 。 在 多 数 情 况 下 ,分 析 任 务 都 会 涉及 数据 集中 的 大 部 分 数据 。 也 
就 是 说 ,对 HDFS 来 说 ,请 求 读 取 整 个 数据 集 要 比 读 取 一 条 记录 更 加 高 效 。 

(3) 运行 于 廉价 的 商用 机 器 集群 上 。 在 第 1 章 已 经 了 解 到 ,廉价 是 大 数据 系统 最 重要 
的 一 个 目标 。Hadoop 对 应 急 这 方面 的 要 求 比较 低 ,所 以 只 需 运 行 在 低廉 的 商用 硬件 集群 
上 即 可 。 廉 价 的 商用 机 也 就 意味 着 大 型 集群 中 出 现 节 点 故障 情况 的 概率 非常 高 。HDFS i 
到 了 上 述 故 障 时 ,被 设计 成 能 够 继续 运行 且 不 让 用 户 察觉 到 明显 的 中 断 。 


正 是 由 于 以 上 的 种 种 考虑 ,我 们 会 发 现 ,现在 的 HDFS 在 处 理 一 些 特定 问题 时 不 但 没 
有 优势 ,反而 存在 着 很 多 的 局 限 性 , 它 的 局 限 性 主要 表现 在 以 下 三 个 方面 。 

(1) 不 适合 处 理 低 延迟 数据 访问 。 如 果 要 处 理 一 些 用 户 要 求 时 间 比 较 短 的 低 延 迟 应 用 
请 求 , 则 HDFS 不 适合 。HDFS 是 为 了 处 理 大 型 数据 集 分 析 任 务 的 ,主要 是 为 达到 高 的 数 
据 吞 吐 量 而 设计 的 ,这 就 可 能 要 求 以 高 延迟 作为 代价 。 

应 对 方案 : 对 于 那些 有 低 延 时 要 求 的 应 用 程序 ,我 们 可 以 使 用 HBase, 通 过 上 层 数 据 管 
理 项 目 尽 可 能 地 弥补 这 个 不 足 。 

(2) 无 法 高 效 存 储 大 量 的 小 文件 。 小 文件 是 指 文 件 大 小 小 于 HDFS 上 Block 大 小 
的 文件 。 这 样 的 文件 会 给 Hadoop 的 扩展 性 和 性 能 带 来 严重 问题 。 因 为 NameNode( 4 
称 节 点 ) 把 文件 系统 的 元 数据 放置 在 内 存 中 ,所 有 文件 系统 所 能 容纳 的 文件 数目 是 由 
NameNode 的 内 存 大 小 来 决定 的 。 例如 ,每 个 文件 .索引 目录 及 块 大 约 占 100 字 节 ,如 
果 有 100 万 个 文件 ,每 个 文件 占 一 个 块 ,那么 至 少 要 消耗 200MB 内 存 , 但 如 果 有 更 多 
的 文件 ,那么 NameNode 的 工作 压力 会 更 大 ,检索 处 理 元 数据 所 需要 的 时 间 会 很 漫长 ， 
这 是 很 难以 接受 的 。 

应 对 方案 : 我 们 可 以 利用 SequenceFile、MapFile 等 方式 归档 小 文件 ,这 个 方法 的 原理 
就 是 把 小 文件 归档 起 来 管理 。 

(3) 不 支持 多 用 户 写 人 及 任意 修改 文件 。 在 HDFS 的 每 个 文件 中 只 有 一 个 写 人 者 ,而 
上 且 写 操作 只 能 在 文件 未 尾 完 成 , 即 只 能 执行 追加 操作 ,目前 HDFS 还 不 支持 多 个 用 户 对 同 
一 文件 的 写 操作 ,以 及 在 文件 任意 位 置 进行 修改 。 

这 些 也 只 是 HDFS 目前 存在 的 一 些 问 题 , 随 着 Hadoop 的 不 断 发 展 ,只 会 更 加 成 熟 。 


3.2 HDFS 的 特性 和 设计 目标 


3.2.1 HDFS 的 特性 


HDFS 和 传统 的 分 布 式 文件 系统 相 比 较 , 有 其 独特 的 特性 ,可 以 总 结 为 以 下 几 点 。 

(1) 高 度 容错 ,可 扩展 性 及 可 配置 性 强 。 由 于 容错 性 高 ,因此 非常 适合 部 署 利 用 通用 的 
硬件 平台 构建 容错 性 很 高 的 分 布 式 系统 。 容 易 扩 展 是 指 扩展 无 须 改变 架构 ,只 需要 增加 节 
点 即 可 ,同时 可 配置 性 很 强 。 

(2) 跨 平台 。 使 用 Java 语言 开发 ,支持 多 个 主流 平台 环境 。 

(3) shell 命令 接口 。 和 Linux 文件 系统 一 样 ,拥有 文件 系统 shell 命令 ,可 直接 操作 
HDFS, 

(4) Web Fifi. NameNode 和 DataNode 有 内 置 的 Web 服务 器 ,方便 用 户 检查 集群 的 
当前 状态 。 

(5) 文件 权限 和 授权 。 拥 有 和 Linux 系统 类 似 的 文件 权限 管理 。 

(6) 机 架 感知 功能 。 在 调度 任务 和 分 配 存 储 空间 时 系统 会 考虑 节点 的 物理 位 置 , 从 而 
实现 高 效 访问 和 计算 。 

(7) 安全 模式 。 一 种 维护 时 需要 的 管理 模式 。 


(8) Rebalancer, “4 DataNode 之 间 数 据 不 均衡 时 ,可 以 平衡 集群 上 的 数据 负载 ,实现 
数据 负载 均衡 。 
(9) 升级 和 回 深 。 在 软件 更 新 后 有 异常 发 生 的 情况 下 ,能 够 回 深 到 HDFS 升级 之 前 的 


3.2.2 HDFS 的 设计 目标 


HDFS 作为 Hadoop 的 分 布 式 文件 存储 系统 ,与 传统 的 分 布 式 文件 系统 有 很 多 相同 的 
设计 目标 ,但 是 也 有 明显 的 不 同 之 处 。 下 面 简 述 HDFS 的 设计 目标 。 

1. 检测 和 快速 恢复 硬件 故障 

硬件 故障 是 计算 机 常见 的 问题 ,而 非 异 常 问题 。 整 个 HDFS 系统 由 成 百 上 千 个 存储 着 
数据 文件 的 服务 器 组 成 ,而 HDFS 的 每 个 组 件 随 时 都 有 可 能 出 现 故 障 。 因 此 ,故障 的 检测 
和 快速 自动 恢复 是 HDFS 的 一 个 核心 目标 。 

2. 流 式 数据 访问 

运行 在 HDFS 上 的 应 用 主要 是 以 流 式 数据 读 取 为 主 'HDFS 被 设计 成 适合 进行 批量 处 
理 ,而 不 是 用 户 交 互 式 处 理 。 所 以 它 重 视 数据 春 吐 量 ,而 不 是 数据 访问 的 反应 速度 。 

3. 大 规模 数据 集 

运行 在 HDFS 上 的 应 用 具有 很 大 的 数据 集 。HDFS 上 的 一 个 典型 文件 大 小 可 能 都 
在 GB 级 甚至 TB 级 ,因此 HDFS 支持 大 文件 存储 ,并 能 提供 整体 较 高 的 数据 传输 带 
宽 , 能 在 一 个 集群 里 扩展 到 数 百 个 节点 。 一 个 单一 的 HDFS 实例 应 该 能 支撑 数 以 千 万 
计 的 文件 。 

4. 简化 一 致 性 模型 

HDFS 的 应 用 程序 需要 对 文件 实行 一 次 性 写 入 ,多 次 读 取 的 访问 模式 。 一 个 文件 一 旦 
经 过 创建 . 写 人 和 关闭 之 后 就 不 需要 再 修改 了 。 这 样 的 假设 简化 了 数据 一 致 性 问题 ,使 高 春 
吐 量 的 数据 访问 成 为 可 能 。 

5. 移动 计算 代价 比 移动 数据 代价 低 

对 于 大 文件 来 说 ,移动 计算 比 移动 数据 的 代价 要 低 一 些 。 如 果 在 数据 旁边 执行 操作 , 那 
么 效率 会 比较 高 , 当 数据 特别 大 的 时 候 效果 更 加 明显 ,这 样 可 以 减少 网 络 的 拥塞 和 提高 系统 
的 春 吐 量 。 这 样 就 意味 着 ,将 计算 移动 到 数据 附近 , 比 之 将 数据 移动 到 应 用 所 在 之 处 显然 更 
好 ,HDFS 提供 了 这 样 的 接口 。 

6. 在 异 构 的 软 硬 件 平台 间 的 可 移植 性 

HDFS 在 设计 时 就 考虑 到 平台 的 可 移植 性 ,这 种 特性 方便 了 HDFS 作为 大 规模 数据 应 
用 平台 的 推广 。 

7. 通信 协议 

所 有 的 通信 协议 都 是 在 TCP/IP 协议 之 上 的 。 一 旦 客户 端 和 明确 配置 了 端口 的 名 字 节 
点 (NameNode) 建 立 连 接 后 , 它 和 名 字 节 点 的 协议 便 是 客户 端 协议 (Client Protocal) 。 数 据 
节点 (DataNode) 和 名 字 节 点 之 间 则 用 数据 节点 协议 (DataNode Protocal) 。 


大 数据 
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3.3 HOFS 的 核心 设计 

3.3.1 数据 块 


每 个 磁盘 都 有 默认 的 数据 块 (Data Block) 大 小 ,这 是 磁盘 进行 数据 读 / 写 的 最 小 单位 。 
构建 于 单个 磁盘 之 上 的 文件 系统 通过 磁盘 来 管理 该 文件 系统 中 的 块 ,该 文件 系统 块 的 大 小 
可 以 是 磁盘 块 的 整数 倍 。 文 件 系统 块 一 般 为 几 千 字 节 ,而 一 个 磁盘 块 一 般 为 512B。 这 些 信 
息 对 用 户 来 说 都 是 透明 的 ,都 由 系统 来 维护 。 

HDFS 是 一 个 文件 系统 , 它 也 遵循 按 块 的 方式 进行 文件 操作 的 原则 。 在 默认 情况 
下 ,HDFS 块 的 大 小 为 128MB。 也 就 是 说 ,HDFS 上 的 文件 会 被 划分 为 多 个 大 小 为 
128MB( 上 默认 时 ) 的 数据 块 。 当 一 个 文件 小 于 128MB 时 ,HDFS 不 会 让 这 个 文件 占据 
整个 块 的 空间 。 
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为 什么 HDFS 的 块 如 此 之 大 ? 
HDFS 的 块 比 磁 副 块 要 大 ,目的 是 减 小 寻 址 开销 。 通 过 这 个 足够 大 的 块 ,从 磁盘 一 
次 读 取 数 据 的 时 间 将 远 远 大 于 定位 这 个 块 开始 端 所 消耗 的 时 间 。 因 此 ,传送 一 个 由 多 块 
组 成 的 文件 的 时 间 取 决 于 磁盘 传输 速度 。 如 果 块 太 小 ,那么 大 量 的 时 间 将 会 花 在 磁盘 块 
的 定位 时 间 上 。 


对 分 布 式 文件 系统 中 的 块 进行 抽象 会 带 来 很 多 好 处 ,具体 有 以 下 几 点 。 

(1) 一 个 文件 的 大 小 可 以 大 于 网 络 中 任意 一 个 磁盘 的 容量 。 文 件 的 所 有 块 并 不 需要 存 
储 在 同一 个 磁盘 上 ,因此 它们 可 以 利用 集群 上 的 任意 一 个 磁盘 进行 存储 。 

(2) 使 用 块 而 不 是 文件 可 以 简化 存储 子 系统 。 简 化 是 所 有 系统 的 目标 ,但 是 这 对 于 故 
障 种 类 繁多 的 分 布 式 系统 来 说 尤为 重要 。 将 存储 子 系统 控制 单元 设置 为 块 ,可 简化 存储 管 
理 (由 于 块 的 大 小 是 固定 的 ,因此 计算 单个 磁盘 能 存储 多 少 个 块 相对 容易 一 些 )。 同 时 也 消 
除了 对 元 数据 的 顾虑 ,因为 块 的 内 容 和 块 的 元 数据 是 分 开 存放 和 处 理 的 ,所 以 其 他 系统 可 以 
单独 来 管理 这 些 元 数据 。 

(3) 块 非常 适用 于 数据 备份 ,进而 提供 数据 容错 能 力 和 可 用 性 。 将 每 个 块 复制 到 
少数 几 个 独立 的 机 器 上 (默认 为 3 个 ), 可 以 确保 在 发 生 块 .磁盘 或 机 器 故障 后 数据 不 
丢失 。 如 果 发 现 一 个 块 不 可 用 ,系统 会 从 其 他 地 方 读 取 另 一 个 副本 ,而 这 个 过 程 对 用 
户 是 透明 的 。 


3.3.2 数据 复制 


HDFS 被 设计 成 一 个 可 以 在 大 集群 中 、 跨 机 器 、 可 靠 地 存储 海量 数据 的 框架 。 它 将 每 个 
文件 存储 成 块 (Block) 序 列 , 除 了 最 后 一 个 Block, 所 有 的 Block 都 是 同样 的 大 小 。 文 件 的 所 
有 Block 为 了 容错 都 会 被 元 余 复制 。 每 个 文件 的 Block 大 小 和 复制 (Replication) 因 子 都 是 


可 配置 的 。Replication 因子 在 文件 创建 的 时 候 会 默认 读 取 客 户 端的 HDFS 配置 ,然后 创 
建 , 以 后 也 可 以 改变 。HDFS 中 的 文件 只 写 和 人 一 次 (write-one) ,并 且 严 格 要 求 在 任何 时 候 
只 有 一 个 写 人 者 (writer)。HDFS 的 数据 元 余 复制 示意 如 图 3-1 所 示 。 


块 复制 (Block Replication) 
NameNode(Filename,numReplicas,block-ids,...) 
luser/zkpk/data/part-0001,r:2,{1,3} 
Juser/zkpk/data/part-0002,1:3,{2,4,5} 


DataNode 
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图 3-1 数据 宛 余 复制 示意 


| 


由 图 3-1 可 见 ,文件 /user/zkpk/data/part-0001 的 Replication 因子 值 是 2,Block 的 ID 
列表 包括 1 和 3, 可 以 看 到 1 和 块 3 分 别 被 元 余 备份 了 两 份 数据 块 ;文件 /user/zkpk/data/ 
part-0002 的 Replication 因子 值 是 3,Block 的 ID 列表 包括 2、4、5, 可 以 看 到 块 2.4、5 分 别 
被 宛 余 复制 了 三 份 。 在 HDFS 中 ,文件 所 有 块 的 复制 会 全 权 由 名 称 节 点 (NameNode) 进 行 
管理 ,NameNode 周期 性 地 从 集群 中 的 每 个 数据 节点 (DataNode) 接 收 心跳 包 和 一 个 
BlockReport。 心 跳 包 的 接收 表示 该 DataNode 节点 正常 工作 ,而 BlockReport 包括 了 该 
DataNode 上 所 有 的 Block 组 成 的 列表 。 


3.3.3 数据 副本 的 存放 策略 


数据 分 块 存储 和 副本 的 存放 是 HDFS 保证 可 靠 性 和 高 性 能 的 关键 。HDFS 将 每 个 文 
件 的 数据 进行 分 块 存储 ,同时 每 一 个 数据 块 又 保存 有 多 个 副本 ,这些 数据 块 副本 分 布 在 不 同 
的 机 器 节点 上 。 优 化 的 副本 存放 策略 是 HDFS 区 分 于 其 他 大 部 分 分 布 式 文件 系统 的 重要 
特性 。 这 种 特性 需要 做 大 量 的 调 优 ,并 需要 经 验 积累 。HDFS 采用 一 种 称 为 机 架 感 知 
(Crack-aware) 的 策略 来 改进 数据 的 可 靠 性 .可 用 性 和 网 络 带宽 的 利用 率 。 通 过 一 个 机 架 感 
知 ( 见 3.3.4 小 节 ) 的 过 程 ,NameNode 可 以 确定 每 个 DataNode 所 属 的 机 架 ID。 一 个 简单 
但 没有 优化 的 策略 就 是 将 副本 存放 在 不 同 的 机 架 上 。 这 样 可 以 有 效 防止 当 整个 机 架 失 效 时 
数据 的 丢失 ,并 且 人 允许 读数 据 的 时 候 充分 利用 多 个 机 架 的 带宽 。 这 种 策略 设置 可 以 将 副本 
均匀 分 布 在 集群 中 ,有 利于 组 件 失效 情况 下 的 负载 均衡 。 但 是 ,因为 这 种 策略 的 一 个 写 操作 
需要 传输 数据 块 到 多 个 机 架 ,因此 增加 了 写 的 代价 。 

目前 实现 的 副本 存放 策略 只 是 在 这 个 方向 上 的 第 一 步 。 实 现 这 个 策略 的 短期 目标 是 
验证 它 在 生产 环境 下 的 有 效 性 ,观察 它 的 行为 ,为 实现 更 先进 的 策略 打下 测试 和 研究 的 
基础 。 


在 多 数 情况 下 ,HDFS 默认 的 副本 系数 是 3。 为 了 数据 的 安全 和 高 效 , Hadoop 默认 对 
3 个 副本 的 存放 策略 ,如 图 3-2 所 示 。 

(1) 第 一 块 : 在 本 机 器 的 HDFS 目录 下 存储 一 个 Block。 

(2) 第 二 块 : 不 同 Rack( 机 架 ) 的 某 个 DataNode 上 存储 一 个 Block, 

(3) 第 三 块 : 在 该 机 器 的 同一 个 Rack 下 的 某 台 机 器 上 存储 最 后 一 个 Block, 


DataNodel DataNode4 
A 
T EF 


DataNode2 DataNode5 


Block2 


DataNode3 DataNode6 


Rack! Rack2 
图 3-2 Block 备份 规则 


这 种 策略 减少 了 机 架 间 的 数据 传输 ,提高 了 写 操作 的 效率 ,而 且 可 以 保证 对 该 Block 所 
属 文件 的 访问 能 够 优先 在 本 Rack 下 找到 ,如 果 整 个 Rack 发 生 了 异常 ,也 可 以 在 另外 的 
Rack 上 找到 该 Block 的 副本 。 这 样 可 以 保障 足够 的 高 效 ,同时 做 到 了 数据 的 容错 。 

机 架 的 错误 远 远 比 节点 的 错误 少 ,所 以 这 个 策略 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 
与 此 同时 ,因为 数据 块 只 放 在 两 个 (不 是 3 个) 不同 的 机 架 上 ,所 以 此 策略 减少 了 读 取 
数据 时 需要 的 网 络 传输 总 带宽 。 在 这 种 策略 下 ,副本 并 不 是 均匀 分 布 在 不 同 的 机 架 
上 。 三 分 之 一 的 副本 在 一 个 节点 上 ,三 分 之 一 的 副本 在 同一 个 机 哥 的 其 他 节点 上 ,其 
他 副本 均匀 分 布 在 剩 下 的 机 架 中 ,这 一 策略 在 不 损害 数据 可 靠 性 和 读 取 性 能 的 情况 下 
改进 了 写 的 性 能 。 

如 果 将 Block 备份 设置 成 三 份 ,那么 这 三 份 一 样 的 块 是 怎么 复制 到 DataNode 上 的 呢 ? 
下 面 了 解 一 下 Block 块 的 备份 机 制 , 如 图 3-3 所 示 。 


Client Client 
BK_1 BK_1 BK_1 
DataNodel DataNode2 DataNode3 


图 3-3 Block 的 备份 机 制 


假设 第 一 个 备份 传 到 DataNodel 上 .那么 第 二 个 备份 是 从 DataNodel 上 以 流 的 形 
式 传输 到 DataNode2 上 ,同样 ,第 三 个 备份 是 从 DataNode2 上 以 流 的 形式 传输 到 
DataNode3 E. 
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如 何 设置 集群 Block 的 备份 数 ? 
方法 1: 修改 配置 文件 hdfs-site. xml 以 下 配置 。 


<property> 

<name> dfs.replication< /name> 

<value> 1< /value> 

< description > Default block replication. The actual number of replications can be 
specified when the file is created.The default is used if replication is not specified in 
create time. 

< /description> 
</property> 


默认 dfs. replication 的 值 为 3, 通 过 这 种 方法 虽然 更 改 了 配置 文件 ,但 是 参数 只 在 文 
件 被 写 入 dfs 时 起 作用 ,不 会 改变 之 前 写 入 的 文件 的 备份 数 。 

方法 2: 通过 命令 更 改 备份 数 。 

bin/hadoop fs - setrep -R1/ 


这 样 可 以 改变 整个 HDFS 里 面 的 备份 数 , 不 需要 重启 HDFS 系统 。 而 方法 1 需要 
重启 HDFS 系统 才能 生效 。 


3.3.4 机 架 感知 


在 通常 情况 下 ,大 型 Hadoop 集群 是 以 机 架 的 形式 来 组 织 的 ,同一 个 机 架 上 不 同 节点 间 
的 网 络 状况 比 不 同 机 架 之 间 的 更 为 理想 。 另 外 ,NameNode 设法 将 数据 块 副本 保存 在 不 同 
的 机 架 上 ,尽量 做 到 将 3 个 副本 分 布 到 不 同 的 节点 上 ,以 提高 容错 性 。 

那么 ,通过 什么 方式 告知 Hadoop 哪些 Slave 机 器 属于 哪个 Rack? 

默认 情况 下 , Hadoop 的 机 架 感知 是 没有 被 启用 的 。 所 以 ,在 通常 情况 下 , Hadoop 集群 
的 HDFS 在 选 机 器 的 时 候 , 是 随机 选择 的 ,也 就 是 说 ,很 有 可 能 在 写 数据 时 , Hadoop 将 第 一 
块 数据 Blockl 写 到 Rackl 上 ,然后 在 随机 的 选择 下 将 Block2 写 入 到 Rack2 下 ,此 时 两 个 
Rack 之 间 产 生 了 数据 传输 的 流量 。 之 后 ,在 随机 的 情况 下 ,又 将 Block3 重新 又 写 回 
Rack] ,此 时 ,两 个 Rack 之 间 又 产生 了 一 次 数据 流量 。 在 Job 处 理 的 数据 量 非常 大 ,或 者 往 
hadoop 推送 的 数据 量 非常 大 的 时 候 ,这 种 情况 会 造成 Rack 之 间 的 网 络 流量 成 倍 的 上 升 ,成 
为 性 能 的 瓶颈 ,进而 影响 作业 的 性 能 乃至 整个 集群 的 服务 。 

要 将 Hadoop 机 架 感 知 的 功能 启用 ,配置 非常 简单 ,在 NameNode 所 在 机 器 的 core- 
site. xml 配置 文件 中 配置 一 个 选项 : 


<Property> 

<name> topology.script.file.name< /name> 
<value> /path/to/script< /value> 
</property> 


这 个 配置 选项 的 value 指定 为 一 个 可 执行 程序 ,通常 为 一 个 脚本 ,该 脚本 接受 一 个 参 
数 ,输出 一 个 值 。 接 受 的 参数 通常 为 某 台 DataNode 机 器 的 IP 地 址 ,而 输出 的 值 通常 为 该 
IP 地 址 对 应 的 DataNode 所 在 的 Rack ,例如 /Rackl1。NameNode 启动 时 ,会 判断 该 配置 选 
项 是 否 为 空 ,如果 非 空 , 则 表示 已 经 用 机 架 感知 的 配置 ,此 时 NameNode 会 根据 配置 寻找 该 
脚本 ,并 在 接收 到 每 一 个 DataNode 的 heartbeat( 心 跳 ) 时 ,将 该 DataNode AY IP 地 址 作为 参 
数 传 给 该 脚本 运行 ,并 将 得 到 的 输出 作为 该 DataNode 所 属 的 机 架 保 存 到 内 存 的 一 个 
Map 中 。 


3.3.5 安全 模式 


1. 简介 

NameNode 在 启动 时 会 自动 进入 安全 模式 (SafeMode) ,也 可 以 手动 进入 。 安 全 模式 是 
Hadoop 集群 的 一 种 保护 模式 。 当 系统 处 于 安全 模式 时 ,会 检查 数据 块 的 完整 性 。 假 设 我 
们 设置 的 副本 数 ( 即 参数 dfs. replication) 是 5, 那 么 在 DataNode 上 就 应 该 有 5 个 副本 存在 ， 
ERA 3 个 副本 ,那么 比率 就 是 3/5 二 0.6。 在 配置 文件 hdfs-default. xml 中 定义 了 一 个 最 
小 的 副本 率 0. 999。 

<property> 

<name> dfs.safemode.threshold.pct< /name> 
<value> 0.999f< /value> 

</property> 

当前 的 副本 率 0. 6 明显 小 于 0. 999, 因 此 系统 会 自动 复制 副本 到 其 他 DataNode, 4 
DataNode 上 报 的 Block 个 数 达到 了 元 数据 记录 的 Block 个 数 的 0. 999 倍 时 才 可 以 离开 安 
全 模式 ,否则 一 直 是 这 种 只 读 模 式 。 如 果 设 为 1 则 HDFS 永远 处 于 安全 模式 。 如 果 系 统 中 
有 8 个 副本 ,超过 我 们 设 定 的 5 个 副本 ,那么 系统 也 会 删除 多 余 的 3 个 副本 。 

由 此 看 来 ,安全 模式 是 Hadoop 的 一 种 保护 机 制 , 用 于 保证 集群 中 数据 块 的 安全 性 的 。 

2， 影 响 

当 系统 处 于 安全 模式 时 ,不 接受 任何 对 名 称 空间 的 修改 ,同时 也 不 会 对 数据 块 进行 
复制 或 删除 。 虽 然 不 能 进行 修改 文件 的 操作 ,但 是 可 以 浏览 目录 结构 .查看 文件 内 容 等 
操作 。 

在 安全 模式 下 运行 Hadoop 程序 时 ,有 时 会 报 以 下 错误 : 


org.apache .hadoop.dfs .SafeModeException: 
Cannotdelete/user/hadoop/input. Name node is in safe mode. 


正常 情况 下 ,安全 模式 会 运行 一 段 时 间 后 自动 退出 ,只 是 需要 等 一 会 儿 。 有 没有 不 用 
等 ,直接 退出 安全 模式 的 方法 呢 ? 下 面 一 起 来 看 一 下 如 何 用 命令 来 操作 安全 模式 。 
3. 操作 


hadoop dfsadmin - safemode leave // 强 制 NameNode 退出 安全 模式 
hadoop dfsadmin - safemode enter // 进 入 安全 模式 
hadoop dfsadmin - safemode get // 查 看 安全 模式 状态 


hadoop dfsadmin - safemode wait // 等 待 ,一 直到 安全 模式 结束 


3.3.6 负载 均衡 


HDFS 的 数据 也 许 并 不 是 非常 均匀 地 分 布 在 各 个 DataNode 中 。 机 器 与 机 器 之 间 磁 盘 
利用 率 不 平衡 是 HDFS 集群 非常 容易 出 现 的 情况 ,尤其 是 在 DataNode 节点 出 现 故 障 或 在 
现 有 的 集群 上 增加 新 的 DataNode 的 时 候 。 当 新 增 一 个 数据 块 (一 个 文件 的 数据 被 保存 在 
一 系列 的 块 中 ) 时 ,NameNode 在 选择 DataNode 接收 这 个 数据 块 之 前 ,会 考虑 很 多 因素 。 
其 中 的 一 些 因素 如 下 。 

(1) 将 数据 块 的 一 个 副本 放 在 正在 写 这 个 数据 块 的 节点 上 。 

(2) 尽量 将 数据 块 的 不 同 副本 分 布 在 不 同 的 机 架 上 ,这 样 集群 可 在 完全 失去 某 一 机 架 
的 情况 下 还 能 存活 。 

(3) 一 个 副本 通常 被 放置 在 和 写 文件 的 节点 同一 机 架 的 某 个 节点 上 ,这 样 可 以 减少 跨 
越 机 架 的 网 络 IO。 

(4) 尽量 均匀 地 将 HDFS 数据 分 布 在 集群 的 DataNode 中 。 

由 于 上 述 多 种 因素 的 影响 ,数据 可 能 不 会 均匀 分 布 在 DataNode 中 。 当 HDFS 出 现 不 
平衡 状况 的 时 候 , 会 引发 很 多 问题 ,比如 MapReduce 程序 无 法 很 好 地 利用 本 地 计算 的 优势 ， 
机 器 之 间 无 法 达到 更 好 的 网 络 带 宽 使 用 率 、 机 器 磁盘 无 法 利用 等 。 为 此 ,HDFS 提供 了 一 个 
专门 用 于 分 析 数 据 块 分 布 和 重新 均衡 DataNode 上 的 数据 分 布 的 工具 : 


$ HADOOP HOME/bin/start-balancer.sh-t 10% 


在 这 个 命令 中 ,-t 参数 后 面 跟 的 是 HDFS 达到 平衡 状态 的 磁盘 使 用 率 偏差 值 。 如 果 机 
器 与 机 器 之 间 磁 盘 使 用 率 偏 差 小 于 10% ,那么 我 们 就 认为 HDFS 集群 已 经 达到 了 平衡 

Hadoop 开发 人 员 在 开发 负载 均衡 程序 Balancer 的 时 候 ,建议 遵循 以 下 几 个 原则 。 

(1) 在 执行 数据 重 分 布 的 过 程 中 ,必须 保证 数据 不 能 出 现 丢失 ,不 能 改变 数据 的 备份 
数 ,不 能 改变 每 一 个 机 架 中 所 有 具备 的 Block 数量 。 

(2) 系统 管理 员 可 以 通过 一 条 命令 启动 数据 重 分 布 程序 或 停止 数据 重 分 布 程序 。 

(3) Block 在 移动 的 过 程 中 ,不 能 占用 过 多 的 资源 ,如 网 络 带宽 。 

(4) 数据 重 分 布 程序 在 执行 的 过 程 中 ,不 能 影响 NameNode 的 正常 工作 。 

负载 均衡 程序 作为 一 个 独立 的 进程 与 NameNode 进程 分 开 执 行 。HDFS 负载 均衡 的 
处 理 步骤 如 下 。 

(1) 负载 均衡 服务 Rebalancing Server 从 NameNode 中 获取 所 有 的 DataNode 情况 , 具 
体 包 括 每 一 个 DataNode 磁盘 使 用 情况 , 见 图 3-4 中 的 流程 1. get datanode report. 

(2) Rebalancing Server 计算 哪些 机 器 需要 将 数据 移动 ,哪些 机 器 可 以 接受 移动 的 数 
据 , 以 及 从 NameNode 中 获取 需要 移动 数据 的 分 布 情况 , 见 图 3-4 中 的 流程 2. get partial 
blockmap 。 

(3) Rebalancing Server 计算 出 可 以 将 哪 一 台 机 器 的 Block 移动 到 另 一 台 机 器 中 去 , 见 
图 3-4 中 流程 3. copy a block, 

(A) 需要 移动 Block 的 机 器 将 数据 移动 到 目标 机 器 上 ,同时 删除 自己 机 器 上 的 Block 数 
据 , 见 图 3-4 中 的 流程 4 一 6。 
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图 3-4 HDFS 数据 重 分 布 流 程 示意 


(5) Rebalancing Server 获取 本 次 数据 移动 的 执行 结果 ,并 继续 执行 这 个 过 程 , 一 直到 
没有 数据 可 以 移动 或 HDFS 集群 已 经 达到 平衡 的 标准 为 止 , 见 图 3-4 中 的 流程 7。 

HDFS 数据 重 分 布 程序 实现 的 逻辑 流程 ,如 图 3-4 所 示 。 

在 大 多 数 情况 下 ,我 们 可 以 选择 上 述 HDFS 的 这 种 负载 均衡 工作 机 制 ,然而 一 些 特定 
的 场景 确实 还 是 需要 不 同 的 处 理 方式 ,这 里 设 定 一 种 场景 。 

(1) 复制 因子 是 3。 

(2) HDFS 由 两 个 机 架 (Rack) 组 成 。 

(3) 两 个 机 架 中 的 机 器 磁盘 配置 不 同 , 第 一 个 机 架 中 每 一 台 机 器 的 磁盘 配置 为 2TB, 第 
二 个 机 架 中 每 一 台 机 器 的 磁盘 配置 为 12TB。 

(4) 大 多 数 数据 的 两 份 备份 都 存储 在 第 一 个 机 架 中 。 

在 这 样 的 情况 下 , HDFS 集群 中 的 数据 肯定 是 不 平衡 的 ,现在 运行 负载 均衡 程序 会 发 现 
运行 结束 以 后 整个 HDFS 集群 中 的 数据 依旧 不 平衡 : Rackl 中 的 磁盘 剩余 空间 远 远 小 于 
Rack2, 这 是 因为 负载 均衡 程序 的 原则 是 不 能 改变 每 一 个 机 架 中 所 具备 的 Block 数量 。 简 单 
地 说 ,就 是 在 执行 负载 均衡 程序 的 时 候 , 不 会 将 数据 从 一 个 机 架 移 到 另 一 个 机 架 中 ,所 以 就 
导致 了 负载 均衡 程序 永远 无 法 平衡 HDFS 集群 的 情况 。 

针对 这 种 情况 ,就 需要 HDFS 系统 管理 员 手 动 操作 来 达到 负载 均衡 ,操作 步骤 如 下 。 

(1) 继续 使 用 现 有 的 负载 均衡 程序 ,但 修改 机 架 中 的 机 器 分 布 ,将 磁盘 空间 小 的 机 器 部 
署 到 不 同 的 机 架 中 去 。 

(2) 修改 负载 均衡 程序 ,允许 改变 每 一 个 机 架 中 所 具有 的 Block 数量 ,将 磁盘 空间 告急 
的 机 架 中 存放 的 Block 数量 减少 ,或 者 将 其 移 到 其 他 磁盘 空间 充足 的 机 架 中 去 。 


3.3.7 心跳 机 制 


所 谓 “ 心 跳 ”, 是 一 种 形象 化 描述 , 指 的 是 持续 的 按照 一 定 频率 在 运行 ,类 似 于 心脏 在 永 
无 休止 的 跳动 。Hadoop 中 心跳 机 制 的 具体 实现 如 下 。 

(1) Hadoop 集 群 是 master/slave 模式 。 其 中 ,master 包括 NameNode 和 ResourceManager; 
slave 包括 DataNode 和 NodeManager。 

(2) master 启动 的 时 候 , 会 开 一 个 ipe server 在 那里 ,等 待 slave 心跳 。 

(3) slave 启动 时 ,会 连接 master, 并 每 隔 3 秒 钟 主动 向 master 发 送 一 个 “心跳 ”, 这 个 时 


间 可 以 通过 heartbeat. recheck. interval 属性 来 设置 。 将 自己 的 状态 信息 告诉 master, 然 后 
master 也 是 通过 这 个 心跳 的 返回 值 ,向 slave 节点 传达 指令 。 

(4) 需要 指出 的 是 , NameNode 与 DataNode 之 间 的 通信 ,ResourceManager 与 
NodeManager 之 间 的 通信 ,都 是 通过 “心跳 ”完成 的 。 

(5) 当 NameNode 长 时 间 没 有 接收 到 DataNode 发 送 的 心跳 时 ,NameNode 就 判断 
DataNode 的 连接 已 经 中 断 , 不 能 继续 工作 了 ,就 把 它 定 性 为 dead node, NameNode 会 检查 
“dead node” 中 的 副本 数据 ,复制 到 其 他 DataNode 中 。 


3.4 HOFS 的 体系 结构 


在 2.2.1 小 节 中 ,已 经 简要 介绍 了 HDFS, 接 下 来 详细 了 解 HDFS 的 体系 结构 。 从 组 
织 结构 上 来 讲 , HDFS 最 重要 的 两 个 组 件 为 : 作为 Master 的 NameNode 和 作为 Slave 的 
DataNode。NameNode 负责 管理 文件 系统 的 命名 空间 和 客户 端 对 文件 的 访问 ; DataNode 
是 数据 存储 节点 ,所 有 的 这 些 机 器 通常 都 是 普通 的 运行 Linux 的 机 器 ,运行 着 用 户 级 别 的 服 
务 进程 。 客 户 端 可 以 和 NameNode 或 DataNode 在 同一 台 服 务 器 上 ,前 提 是 机 器 资源 允许 ， 
并 且 能 够 接受 不 可 靠 的 应 用 程序 代码 带 来 的 风险 。 


3.4.1 Master/Slave 架构 


相 比 于 基于 P2P 模型 的 分 布 式 文件 系统 架构 ,HDFS 采用 的 是 基于 Master/Slave EM 
架构 的 分 布 式 文件 系统 ,一 个 HDFS 集群 包含 一 个 单独 的 Master 节点 和 多 个 Slave 节点 服 
务 器 ,这 里 的 一 个 单独 的 Master 节点 的 含义 是 HDFS 系统 中 只 存在 一 个 逻辑 上 的 Master 
组 件 。 一 个 逻辑 的 Master 节点 可 以 包括 两 台 物 理 主机 , 即 两 台 Master 服务 器 、 多 台 Slave 
服务 器 。 一 台 Master 服务 器 组 成 单 NameNode 集群 ,两 台 Master 服务 器 组 成 双 
NameNode 集群 .并 且 同 时 被 多 个 客户 端 访 问 , 所 有 的 这 些 机 器 通常 都 是 普通 的 Linux 机 
器 ,运行 着 用 户 级 别 (user-level) 的 服务 进程 。HDFS 架构 设计 如 图 3-5 所 示 。 

图 3-5 中 展示 了 HDFS 的 NameNode,DataNode 以 及 Client( 客 户 端 ) 之 间 的 存 取 访 问 
关系 ,单一 节点 的 NameNode 使 系统 的 架构 大 大 地 简化 了 。NameNode 负责 保存 和 管理 所 
有 的 HDFS 元 数据 ,因而 用 户 数据 就 不 需要 通过 NameNode, 也 就 是 说 文件 数据 的 读 写 是 
直接 在 DataNode 上 进行 的 。 

HDFS 存储 的 文件 都 被 分 割 成 固定 大 小 的 Block 块 , 在 创建 Block 的 时 候 ,NameNode 
服务 器 会 给 每 个 Block 分 配 一 个 唯一 不 变 的 Block 标识 。DataNode 服务 器 把 Block 以 
Linux 文件 的 形式 保存 在 本 地 硬盘 上 ,并且 根据 指定 的 Block 标识 和 字 节 范围 来 读 写 块 数 
据 。 出 于 可 靠 性 的 考虑 ,每 个 块 都 会 复制 到 多 个 DataNode 服务 器 上 。 在 默认 情况 下 ， 
HDFS 使 用 三 个 宙 余 备份 ,当然 用 户 可 以 为 不 同 的 文件 命名 空间 设 定 不 同 的 复制 因子 数 。 

NameNode 管理 所 有 的 文件 系统 元 数据 。 这 些 元 数据 包括 命名 空间 ,访问 控制 信息 、 文 
件 和 Block 的 映射 信息 ,以 及 当前 Block 的 位 置信 息 。NameNode 还 管理 着 系统 范围 内 的 
活动 ,例如 ,Block 租用 管理 ,孤立 Block 的 回收 ,以 及 Block 在 DataNode 服务 器 之 间 的 迁 
移 。NameNode 使 信息 周期 性 地 和 每 个 DataNode 服务 器 通信 ,发 送 指 令 到 各 个 DataNode 
服务 器 并 接收 DataNode 中 Block 的 状态 信息 。 


NauieNode Metadata(Name, replicas, ...): 


/home/zkpk/data, 3, ... 
Metadata ops 
元 数据 操作 
Block ops 
块 操作 
DataNode DataNode 
| Replication 
| | F 
Rackl Write Write, Rack2 
Client 


图 3-5 HDFS 架构 设计 示意 


HDFS 客户 端 代 码 以 库 的 形式 被 链接 到 客户 程序 中 。 在 客户 端 代码 中 需要 实现 HDFS 
文件 系统 的 API 接口 函数 ,应 用 程序 与 NameNode 和 DataNode 服务 器 通信 ,以 及 对 数据 进 
行 读 写 操作 。 客 户 端 和 NameNode 的 通信 和 只 获取 元 数据 ,所 有 的 数据 操作 都 是 由 客户 端 直 
接 和 DataNode 服务 器 进行 交互 的 。HDFS 不 提供 POSIX 标准 的 API 功能 ,因此 HDFS 
API 调用 不 需要 深入 到 Linux vnode 级 别 。 无 论 是 客户 端 还 是 DataNode 服务 器 都 不 需要 
缓存 文件 数据 。 客 户 端 缓存 数据 几乎 没有 什么 用 处 ,因为 大 部 分 程序 要 么 以 流 的 方式 读 取 
一 个 巨大 的 文件 ,要 么 工作 集 太 大 根本 无 法 被 缓存 。 因 此 ,无 须 考虑 与 缓存 相关 的 问题 , 同 
时 也 简化 了 客户 端 及 整个 系统 的 设计 和 实现 。 


3.4.2 NameNode ,SecondaryNameNode , DataNode 


1. NameNode 

元 数据 节点 NameNode 是 管理 者 ,一 个 Hadoop 集群 只 有 一 个 NameNode 节点 ,是 一 
个 通常 在 HDFS 实例 中 的 单独 机 器 上 运行 的 软件 。NameNode 主要 负责 HDFS 文件 系统 
的 管理 工作 ,具体 包括 命名 空间 管理 (namespace) 和 文件 Block 管理 。NameNode 决定 是 否 
将 文件 映射 到 DataNode 的 复制 块 上 。 对 于 最 常见 的 3 个 复制 块 ,第 一 个 复制 块 存储 在 同 
一 个 机 架 的 不 同 节点 上 ,最 后 一 个 复制 块 存储 在 不 同 机 架 的 某 个 节点 上 。 

1) 协议 接口 

在 3.4.1 小 节 已 经 学 习 过 , HDFS 采用 的 是 Master/Slave 架构 ,而 NameNode 就 是 HDFS 
的 Master 架构 。NameNode 提供 的 是 始终 被 动 接收 服务 的 server, 主 要 有 三 类 协议 接口 。 

(1) ClientProtocol 接口 ,提供 给 客户 端 ,用 于 访问 NameNode。 它 包含 了 文件 的 HDFS 
功能 。 和 GFS 一 样 ,HDFS 不 提供 POSIX 形式 的 接口 ,而 使 用 了 一 个 私有 接口 。 

(2) DataNodeProtocol 接口 ,用 于 DataNode 向 NameNode 通信 。 

(3) NameNodeProtocol 接口 ,用 于 从 NameNode 到 NameNode 的 通信 。 


在 HDFS 内 部 ,一 个 文件 被 分 成 一 个 或 多 个 Block, 这 些 Block 存储 在 DataNode 集合 
里 ,NameNode 就 负责 管理 文件 Block 的 所 有 元 数据 信息 ,这 些 元 数据 主要 信息 如 下 : 

(1)“ 文 件 名 一 数据 块 " 映 射 ; 

(2)“ 数 据 块 一 DataNode 列表 ”映射 。 

其 中 性 文件 名 一 数据 块 保 存在 磁盘 上 进行 持久 化 存储 ,需要 注意 的 是 NameNode 上 
不 保存 “数据 块 一 DataNode 列表 ”映射 ,该 列表 是 通过 DataNode 上 报 给 NameNode 建立 起 
来 的 。NameNode 执行 文件 系统 的 名 称 空间 操作 ,例如 打开 、 关 闭 、 重 命名 文件 和 目录 ,同时 
决定 文件 数据 块 到 具体 DataNode 节点 的 映射 。 

2) 结构 

上 文 提 到 ,NameNode 管理 着 文件 系统 的 命名 空间 Cnamespace) 。 它 维护 着 文件 系统 树 
Cfilesystem tree) 以 及 文件 树 中 所 有 的 文件 和 文件 夹 的 元 数据 (metadata)。 管 理 这 些 信息 
的 文件 有 两 个 ,分 别 是 命名 空间 镜像 文件 (namespace image) 和 操作 日 志文 件 (edit log) ,这 
些 信息 被 缓存 在 RAM 中 。 当 然 ,这 两 个 文件 也 会 被 持久 化 存储 在 本 地 硬盘 。NameNode 
记录 着 每 个 文件 中 各 个 块 所 在 的 数据 节点 的 位 置信 息 , 但 是 它 并 不 持久 化 存储 这 些 信息 , 因 
为 这 些 信息 会 在 系统 启动 时 从 数据 节点 重建 。 

抽象 的 NameNode 结构 如 图 3-6 所 示 o 
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图 3-6 ”NameNode 结构 


3) 功能 

NameNode 主要 功能 有 以 下 几 点 。 

(1) NameNode 提供 名 称 查询 服务 , 它 是 一 个 Jetty 服务 器 。 

(2) NameNode 保存 metadate 信息 。 具 体 包括 : 文件 owership 和 permissions; 文 件 包 
含 哪些 块 ;Block 保存 在 哪个 DataNode( 由 DataNode 启动 时 上 报 ) 。 

(3) NameNode 的 metadate 信息 在 启动 后 会 加 载 到 内 存 。 

4) 容错 机 制 

NameNode 对 HDFS 来 说 非常 重要 , 若 没 有 NameNode, HDFS 很 难 工作 。 事 实 上 ,如 
果 运行 NameNode 的 机 器 坏 掉 ,系统 中 的 文件 将 会 完全 丢失 ,因为 没有 其 他 方法 能 够 将 位 
于 不 同 DataNode 上 的 文件 块 重建 文件 。 因 此 .NameNode 的 容错 机 制 非常 重要 , Hadoop 
提供 了 两 种 机 制 。 


第 一 种 机 制 是 将 持久 化 存储 在 本 地 硬盘 的 文件 系统 元 数据 备份 。Hadoop 可 以 通过 配 
置 来 让 Namenode 将 它 的 持久 化 状态 文件 写 到 不 同 的 文件 系统 中 。 这 种 写 操作 是 同步 并 且 
是 原子 化 的 。 比 较 常 见 的 配置 是 在 将 持久 化 状态 写 到 本 地 硬盘 的 同时 ,也 写 和 人 到 一 个 远程 
挂 载 的 网 络 文件 系统 。 

另外 一 种 机 制 是 运行 一 个 SecondaryNameNode, 事 实 上 SecondaryNameNode 并 不 能 
被 用 作 Namenode。 它 的 主要 作用 是 定期 地 将 命名 空间 镜像 文件 (namespace image) 与 操作 
日 志文 件 (edit log) 合 并 ,以 防止 操作 日 志文 件 变 得 过 大 。SecondaryNameNode 通常 会 运行 
在 一 个 单独 的 物理 机 上 ,因为 合并 操作 需要 占用 大 量 CPU 时 间 以 及 和 NameNode 相当 的 
内 存 。SecondaryNameNode 保存 着 合并 后 的 命名 空间 镜像 的 一 个 备份 ,万 一 哪 天 
NameNode 宕 机 了 ,就 可 以 通过 这 个 备份 进行 数据 恢复 。 

但 是 ,辅助 的 NameNode(SecondaryNameNode) 总 是 落后 于 主 NameNode, 所 以 在 
Namenode 宕 机 时 ,数据 丢失 是 不 可 避免 的 。 在 这 种 情况 下 ,一 般 需 要 结合 第 一 种 方式 中 提 
到 的 远程 挂 载 的 网 络 文件 系统 CNFS) 中 的 NameNode 的 元 数据 文件 来 使 用 ,把 NFS 中 的 
NameNode 元 数据 文件 复制 到 辅助 NameNode, 并 把 辅助 NameNode 作为 主 NameNode 来 


运行 。 
2. SecondaryNameNode 
1) 工作 原理 


和 NameNode 最 相关 的 一 个 概念 就 是 SecondaryNameNode, 即 辅助 的 NameNode。 
SecondaryNameNode 会 周期 性 地 将 EditsLog 文件 中 记录 的 对 HDFS 的 操作 合并 到 一 个 
FsImage 文件 中 ,然后 清空 EditsLog 文件 。NameNode 的 重启 就 会 加 载 (load) 最 新 的 一 个 
FsImage 文件 ,并 重新 创建 一 个 EditsLog 文件 来 记录 HDFS 操作 ,由 于 EditsLog 中 记录 的 
是 从 上 一 次 FsImage 以 后 到 现在 的 操作 列表 ,所 以 会 比较 小 。 

若 没 有 SecondaryNameNode 这 个 周期 性 的 合并 过 程 , 当 每 次 重启 NameNode 的 时 候 ， 
就 会 花费 很 长 的 时 间 。 而 这 样 周 期 性 地 合并 就 能 减少 重启 的 时 间 。 同 时 也 能 保证 HDFS 
系统 的 完整 性 。SecondaryNameNode 合并 EditsLog 文件 的 过 程 如 图 3-7 所 示 。 
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图 3-7 SecondaryNameNode 工作 原理 


SecondaryNameNode 合并 FsImage 和 EditsLog 文件 的 过 程 如 下 。 

(1) 文件 系统 客户 端 (Client) 进 行 写 操作 时 ,首先 把 它 记 录 在 修改 日 志 中 (EditsLog) 。 

(2) NameNode 在 内 存 中 保存 了 文件 系统 的 元 数据 信息 。 在 记录 修改 日 志 后 ， 
NameNode 会 修改 内 存 中 的 数据 结构 。 

(3) 每 次 的 写 操作 成 功 之 前 ,修改 日 志 都 会 同步 (Sync) 到 文件 系统 。 

(4) FsImage 文件 即 命名 空间 映像 文件 ,是 内 存 中 的 元 数据 在 硬盘 上 的 CheckPoint, € 
是 一 种 序列 化 的 格式 ,并 不 能 够 在 硬盘 上 直接 修改 。 

(5) 当 元 数据 节点 失败 时 ,最 新 CheckPoint 的 元 数据 信息 从 FsImage 加 载 到 内 存 中 ， 
然后 逐一 重新 执行 修改 日 志 中 的 操作 。 

(6) SecondaryNameNode 用 于 帮助 NameNode 将 内 存 中 的 元 数据 信息 CheckPoint 到 
硬盘 上 。 

CheckPoint 的 过 程 如 下 。 

(1) SecondaryNameNode 通知 NameNode 生成 新 的 日 志文 件 , 以 后 的 日 志 都 写 到 新 的 


日 志文 件 中 。 
(2) SecondaryNameNode 用 HTTP Get 从 NameNode 获得 FsImage 文件 及 旧 的 日 志 
文件 。 


(3) SecondaryNameNode 将 FsImage 文件 加 载 到 内 存 中 ,并 执行 日 志文 件 中 的 操作 ， 
然后 生成 新 的 FsImage 文件 。 

(4) SecondaryNameNode 将 新 的 FsImage 文件 用 HTTP Post 传 回 NameNode。 

(5) NameNode 可 以 将 旧 的 FsImage 文件 及 旧 的 日 志文 件 , 换 为 新 的 FsImage 文件 和 
新 的 日 志文 件 ,然后 更 新 fstime 文件 , 写 人 此 次 CheckPoint 的 时 间 。 

(6) 这 样 NameNode 中 的 FsImage 文件 保存 了 最 新 CheckPoint 的 元 数据 信息 ,日 志文 
件 也 重新 开始 ,不 会 变 得 很 大 了 ,从 而 使 得 NameNode 启动 时 花费 很 少 的 时 间 进 行 日 志 的 
合并 。 

SecondaryNameNode 会 周期 性 地 将 EditsLog 文件 进行 合并 ,合并 的 前 提 条 件 是 : 

(1) EditsLog 文件 到 达 某 一 个 冰 值 时 会 对 其 进行 合并 ; 

(2) 每 隔 一 段 时 间 对 其 进行 合并 。 

2) 参数 配置 

将 记录 HDFS 操作 的 EditsLog 文件 与 其 上 一 次 合并 后 存在 的 FsImage 文件 合并 到 
FsImage. checkpoint, 然后 创建 一 个 新 的 EditsLog 文件 ,将 FsImage. checkpoint 复制 到 
NameNode 上 。 复 制 触发 的 条 件 是 在 core-site. xml 里 面 有 两 个 参数 可 配置 。 


<property> 
<name> fs.checkpoint .period< /name> 
<value> 3600< /value> 
<description> The number of seconds between two periodic checkpoints. 
</description> 
</property> 
<property> 


<name> fs.checkpoint .size< /name> 


<value> 67108864< /value> 

<description> The size of the current edit log(in bytes)that triggers a 
periodic checkpoint even if the fs checkpoint period hasn't expired. 
< /description> 

</property> 

参数 解释 如 下 。 

(1) fs. checkpoint. period: 时 间 间 隔 , 默 认为 1 小 时 合并 一 次 。 

(2) fs. checkpoint. size: 文件 大 小 默认 为 64MB, 当 EditsLog 文件 大 小 超过 64MB, 就 
会 触发 EditsLog 与 FsImage 文件 的 合并 。 

如 果 NameNode 损坏 或 丢失 之 后 ,导致 无 法 启动 Hadoop, 这 时 就 要 人 工 去 干预 恢复 到 
SecondaryNameNode 中 所 照 快照 的 状态 ,意味 着 集群 的 数据 会 或 多 或 少 地 丢失 一 些 宕 机 时 
间 , 并 且 将 SecondaryNameNode 作为 重要 的 NameNode 来 处 理 。 这 就 要 求 , 尽 量 避 免 将 
SecondaryNameNode 和 NameNode 放 在 同一 台 机 器 上 。 

3. DataNode 

上 面 已 经 学 习 过 ,Hadoop 的 管理 节点 是 NameNode, 用 于 存储 并 管理 元 数据 。 那 
么 具体 的 文件 数据 存储 在 哪里 呢 ? DataNode 就 是 负责 存储 数据 的 组 件 , 一 个 数据 块 
Block 会 在 多 个 DataNode 中 进行 元 余 备 份 ,而 一 个 DataNode 对 于 一 个 块 最 多 只 包含 一 
个 备份 。 所 以 可 以 简单 地 认为 DataNode 上 存储 了 数据 块 ID 和 数据 块 内 容 , 以 及 它们 
的 映射 关系 。 

Hadoop 集群 包含 一 个 NameNode 和 大 量 的 DataNode。DataNode 通常 以 机 架 的 形式 
组 织 , 机 架 通 过 一 个 交换 机 将 所 有 系统 连接 起 来 。Hadoop 的 一 个 假设 是 : 机 架 内 部 节点 之 
间 的 传输 速度 快 于 机 架 间 节点 的 传输 速度 。 

集群 中 包含 的 这 些 DataNode 定时 和 NameNode 进行 通信 ,接受 NameNode 的 指令 。 
为 了 减轻 NameNode 的 负担 ,NameNode 上 并 不 永久 保存 哪个 DataNode 上 有 哪些 数据 块 
的 信息 ,而 是 通过 DataNode 启动 时 的 上 报 来 更 新 NameNode 上 的 映射 表 。DataNode 一 旦 
和 NameNode 建立 连接 ,就 会 不 断 地 和 NameNode 保持 联系 。 反 馈 的 信息 中 也 包含 了 
NameNode 对 DataNode 的 一 些 命令 ,如 删除 数据 库 或 把 数据 块 复 制 到 另 一 个 DataNode 
上 。 应 该 注意 的 是 : NameNode 不 会 发 起 到 DataNode 的 请 求 ,在 这 个 通信 过 程 中 ,它们 是 
严格 遵从 客户 端 /服务 器 架构 的 。 

DataNode 同时 也 作为 服务 器 接受 来 自 客户 端的 访问 ,处 理 数据 块 的 读 / 写 请 求 。 
DataNode 之 间 还 会 相互 通信 ,执行 数据 块 复 制 任务 ,同时 ,在 客户 端 执 行 写 操 作 的 时 候 ， 
DataNode 之 间 需 要 相互 配合 ,保证 写 操作 的 一 致 性 。 

DataNode 的 功能 如 下 。 

(1) 保存 Block ,每 个 块 对 应 一 个 元 数据 信息 文件 。 这 个 文件 主要 描述 这 个 块 属 于 哪个 
文件 .第 几 个 块 等 信息 。 

(2) 启动 DataNode 线程 的 时 候 会 向 NameNode 汇报 Block 信息 。 

(3) 通过 向 NameNode 发 送 心跳 保持 与 其 联系 (3 秒 一 次 ) ,如 果 NameNode 10 分 钟 没 
有 收 到 DataNode 的 心跳 , 则 认为 其 已 经 lost, 并 将 其 上 的 Block 复制 到 其 他 DataNode。 


本 章 小 结 


本 章 对 Hadoop 的 存储 系统 HDFS 做 了 比较 详细 的 介绍 ,主要 包括 以 下 几 点 。 

(1) HDFS 和 传统 的 分 布 式 文件 系统 相 比 较 , 有 其 独特 的 特性 。 同 时 , HDFS 作为 
Hadoop 的 分 布 式 文件 存储 系统 和 传统 的 分 布 式 文件 系统 有 很 多 相同 的 设计 目标 ,但 是 也 
有 明显 的 不 同 之 处 。 

(2) 详细 讲述 了 HDFS 的 核心 设计 ,包括 数据 块 、 数 据 复 制 、 数 据 副 本 的 存放 策略 、 机 架 
感知 、 安 全 模式 、 人 负载 均衡 以 及 心跳 机 制 。 

(3) 从 组 织 结构 上 来 讲 ,HDFS 最 重要 的 两 个 组 件 为 : 作为 Master 的 NameNode 和 作 
H Slave 的 DataNode。 掌 握 HDFS 架构 是 怎样 设计 的 。 

(4) 详细 讲述 了 HDFS 中 NameNode、DataNode 以 及 SecondaryNameNode 的 概念 和 
功能 ,掌握 SecondaryNameNode 的 工作 原理 。 


J3 # 

1. 选择 题 

(1) 在 默认 情况 下 ,HDFS 块 的 大 小 为 ( Ja 
A. 512KB B. 32MB C. 64MB D. 128MB 

(2) 在 大 多 数 情况 下 ,副本 系数 为 3,HDFS 的 存放 策略 将 第 二 个 副本 放 在 ( do 
A. 同一 机 架 上 的 同一 节点 B. 同一 机 架 上 的 不 同 节点 
C. 不 同 机 架 的 节点 D. 没有 特殊 要 求 ,都 可 以 


(3) 假设 设置 的 副本 数 ( 即 参数 dfs, replication) JE 3, 现 在 系统 中 有 5 个 副本 ,那么 系统 
会 删除 ( ) 个 副本 。 


A. 0 B. 1 C$ D3 
(4) 在 配置 文件 hdfs-default. xml 中 定义 副本 率 为 ( ) 时 ,HDFS 将 永远 处 于 安全 模式 。 
A. 0 B. 0. 999 C. 0. 999 的 倍数 D. 1 
(5) FRC ) 不 属于 NameNode 的 功能 。 
A. 提供 名 称 查 询 服务 B. 保存 Block ,汇报 Block 信息 
C. 保存 metadate 信息 D. metadate 信息 在 启动 后 会 加 载 到 内 存 
2. 问答 题 


(1) HDFS 和 传统 的 分 布 式 文件 系统 相 比较 ,有 哪些 独特 的 特性 ? 

(2) 为 什么 HDFS 的 块 如 此 之 大 ? 

G) HDFS 中 数据 副本 的 存放 策略 是 什么 ? 

(4) 负载 均衡 作为 一 个 独立 的 进程 与 NameNode 进程 分 开 执行 ,HDFS 负载 均衡 的 处 
理 步骤 是 什么 ? 

(5) NameNode 和 DataNode 的 功能 分 别 是 什么 ? 

(6) SecondaryNameNode 合并 FsImage 和 EditsLog 文件 的 过 程 是 什么 ? 


HDFS 的 运行 机 制 


本 章 提 要 


通过 前 面 的 学 习 , 对 于 HDFS 的 作用 相信 大 家 已 经 了 解 了 很 多 了 ,本 章 主要 介绍 
HDFS 的 运行 机 制 ,包括 客户 端 与 服务 端的 RPC 通信 ,文件 的 读 取 、 写 入 ,文件 的 一 致 模型 。 
在 了 解 了 HDFS 的 基本 机 制 后 ,知道 了 单 台 计 算 机 无 法 处 理 的 数据 通过 HDFS 可 以 做 到 存 
储 和 读 取 ,但 是 HDFS 集群 作为 商用 的 服务 器 ,在 保证 了 性 能 的 前 提 下 ,其 可 靠 性 也 是 至 关 
重要 的 ,在 企业 中 因为 服务 器 宕 机 很 多 时 候 会 带 来 巨大 的 经 济 损失 ,其 至 是 无 法 承受 的 
损失 。 

而 在 早期 的 HDFS 框架 中 ,NameNode 作为 集群 的 首脑 ,对 整个 集群 的 重要 性 不 言 而 
喻 ,也 正 是 因为 它 的 至 关 重 要 ,导致 了 单 点 故障 , 即 一 旦 NameNode 节点 出 现 故 障 或 者 宕 
机 ,将 导致 整个 集群 的 瘫 疾 。 为 了 解决 这 个 问题 ,我 们 引入 了 HA( 高 可 靠 性 ), 做 到 了 在 单 
台 NameNode 出 现 故障 后 ,集群 仍然 可 以 正常 运作 。 

HDFS 如 此 强大 ,是 不 是 就 没有 瓶颈 了 呢 ? 当然 不 是 ,技术 在 不 断 地 发 展 ,在 信息 化 如 
此 发 达 的 今天 ,任何 的 技术 都 是 在 不 断 的 进化 或 者 被 淘汰 ,而 HDFS 的 发 展 要 解决 哪些 瓶 
颈 呢 ? 这 个 问题 的 关键 还 是 在 NameNode 上 ,大 家 都 知道 集群 文件 的 元 数据 是 存储 在 
NameNode 的 内 存 当中 ,而 内 存 的 容量 是 有 限 的 ,也 就 限制 了 集群 的 承载 量 。 不 仅 如 此 ,在 
访问 元 数据 的 同时 ,NameNode 需要 运行 多 个 进程 ,这 些 进程 也 需要 消耗 内 存 。 那 么 如 何 解 
决 这 个 瓶颈 呢 ? 在 本 章 的 最 后 一 小 节 将 介绍 HDFS 的 Federation 机 制 ,通过 HDFS 
Federation 来 解决 NameNode 内 存 的 瓶颈 问题 。 


41 HOFS 中 数据 流 的 读 写 


在 HDFS 中 ,NameNode 作为 集群 的 大 脑 ,保存 着 整个 文件 系统 的 元 数据 ,而 真正 的 数 
据 是 存储 在 DataNode 的 块 中 。 本 节 将 介绍 HDFS 如 何 读 取 和 写 入 文件 。 


4.1.1 RPC 实现 流程 
RPC 一 一 远程 过 程 调用 协议 , 它 是 一 种 通过 网 络 从 远程 计算 机 程序 上 请 求 服务 ,而 不 
需要 了 解 底层 网 络 技术 的 协议 。RPC 协议 假定 某 些 传输 协议 的 存在 ,如 TCP 或 UDP ,为 


通信 程序 之 间 携 带 信息 数据 。 在 OSI 网 络 通信 模型 中 ,RPC 跨越 了 传输 层 和 应 用 层 。RPC 
使 得 开发 包括 网 络 分 布 式 多 程序 在 内 的 应 用 程序 更 加 容易 。 


RPC 采用 客户 机 /服务 器 模式 。 请 求 程序 就 是 一 个 客户 机 ,而 服务 提供 程序 就 是 一 个 
服务 器 。 首 先 ,客户 机 调用 进程 发 送 一 个 有 进程 参数 的 调用 信息 到 服务 进程 ,然后 等 待 应 答 
信息 。 在 服务 器 端 ,进程 保持 睡眠 状态 直到 调用 信息 到 达 为 止 。 当 一 个 调用 信息 到 达 , 服 务 
器 获得 进程 参数 ,计算 结果 ,发 送 答复 信息 ,然后 等 待 下 一 个 调用 信息 。 最 后 ,客户 端 调 用 进 
程 接收 答复 信息 ,获得 进程 结果 ,然后 调用 执行 继续 进行 。 

简单 来 说 , Hadoop RPC= ASCH 十 定制 的 二 进 制 流 。 如 果 不 关注 细节 ,从 用 户 的 
角度 来 看 ,RPC 的 实现 流程 如 下 。 

远程 的 对 象 拥有 固定 的 接口 ,这 个 接口 用 户 也 是 可 见 的 ,只 是 真实 的 实现 (Object) 是 在 
服务 端 。 用 户 如 果 想 使 用 哪个 实现 ,调用 过 程 是 : 先 根据 哪个 接口 动态 代理 生成 一 个 代理 
对 象 ,调用 这 个 代理 对 象 的 时 候 , 用 户 的 调用 请 求 被 RPC 捕捉 到 ,然后 包装 成 调用 请 求 , 序 
列 化 成 数据 流 发 送 到 服务 端 ;服务 端 从 数据 流 中 解析 出 调用 请 求 , 然 后 根据 用 户 所 希望 调用 
的 接口 ,调用 接口 真正 地 实现 对 象 ,再 把 调用 结果 返回 给 客户 端 。RPC 架构 如 图 4-1 所 示 。 
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图 4-1 RPC 架构 


4.1.2 RPC 实现 模型 


在 宏观 地 了 解 了 RPC 的 调用 过 程 后 , 接 下 来 从 细节 上 分 析 RPC. 

RPC 在 服务 端的 模型 由 一 系列 实体 组 成 ,分 别 负责 调用 的 整个 流程 。 各 个 实体 分 工 明 
确 ,各 司 其 职 。 下 面 逐 一 介绍 。 

(1) Listener: 监听 RPC Server 的 端口 ,如 果 客 户 端 有 连接 请 求 到 达 , 它 就 接受 连接 ， 
然后 把 连接 转发 到 某 个 Reader, 让 Reader 读 取 那 个 连接 的 数据 。 如 果 有 多 个 Reader, 当 有 
新 连接 过 来 时 ,就 在 这 些 Reader 间 顺 序 分 发 。 

(2) Reader: 从 某 个 客户 端 连接 中 读 取 数据 流 , 把 它 转 化 成 调用 对 象 (call) ,然后 放 到 调 
用 队列 (call queue) 里 。 

(3) Handler: 真正 做 事 的 实体 。 它 调用 队列 中 获取 调用 信息 ,然后 反射 调用 真正 的 对 
象 , 得 到 结果 再 把 此 次 调用 放 到 响应 队列 (response queue) 里 。 

(4) Responder: 不 断 地 检查 响应 队列 中 是 否 有 调用 信息 ,如 果 有 ,就 把 调用 的 结果 返 
回 给 客户 端 。 

RPC Server 架构 如 图 4-2 所 示 。 

下 面 通过 四 段 代码 来 实现 一 个 RPC 的 调用 过 程 。 
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图 4-2 RPC Server 架构 


(1) 创建 一 个 继承 VersionedProtocol 的 接口 。 


import java.io.IOException; 
import org.apache.hadoop.ipc.VersionedProtocol; 
public interface MyBizable extends VersionedProtocol{ 


} 


public static final int PORT=12345; 

public abstract String hello (String name) ; 

public abstract long getProtocolVersion (String protocol, long clientVersion) 
throws IOException; 


(2) 创建 一 个 类 去 实现 接口 ,并 重 写 hello( ) 方 法 。 


import java.io.IOException; 
import org.apache.hadoop.ipc.VersionedProtocol; 
public class MyBiz implements MyBizable{ 


/* (non- Javadoc) 
* @see rpc.MyBizable# hello (java.lang.String) 
sz 
@ Override 
public String hello (String name) { 
System.out .println ("我 被 调用 了 "); 
return "hello "+ name; 
} 
/*_ (non- Javadoc) 
* @see rpc.MyBizable# getProtocolVersion (java.lang.String, long) 
*/ 
@ Override 
public long getProtocolVersion (String protocol, long clientVersion) 
throws IOException { 
return MyBizable.PORT; 


(3) 创建 服务 器 端 并 启动 。 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.ipc.RPC; 
import org.apache.hadoop.ipc.RPC. Server; 
public class MyServer { 
public static final String ADDRESS="localhost"; 
public static final int PORT=2454; 
public static void main(String[] args) throws Exception{ 
/x 
* 构造 一 个 RPC 的 服务 端 
* @param instance 
* @param bindAddress the address to bind on to listen for connection 
* @param port the port to listen for connections on 
* @param conf the configuration to use 
*/ 
final Server server= RPC. getServer (new MyBiz (), MyServer.ADDRESS, MyServer. PORT, 
new Configuration ()); 
server.start (); 


ik 
(4) 创建 客户 端 ,并 调用 hell() 方 法 。 


import java.net .InetSocketAddress; 

import org.apache.hadoop.conf .Configuration; 

import org.apache.hadoop. ipc.RPC; 

public class MyClient { 

public static void main(String[] args) throws Exception{ 

MyBizable client= (MyBizable) RPC. getProxy (MyBizable.class, 
MyBizable.PORT, 
new InetSocketAddress (MyServer.ADDRESS, MyServer .PORT), 
new Configuration ()); 
final String result=client .hello ("world"); 
System.out .println (result) ; 


4.1.3 文件 的 读 取 


文件 的 读 取 是 指 客户 端 从 HDFS 中 读 取 文件 的 过 程 . 如 图 4-3 所 示 为 客户 端 以 及 与 之 
交互 的 HDFS,NameNode, DataNode 的 读数 据 流 的 过 程 。 

下 面具 体 的 分 析 一 下 文件 读 取 的 过 程 。 

(1) 使 用 HDFS 提供 的 客户 端 开发 库 (Client JVM) 调 用 DistributedFileSystem 对 象 的 
open() 方 法 来 打开 希望 读 取 的 文件 。 

(2) 客户 端 开发 库 向 NameNode 发 起 RPC 请 求 ,NameNode 会 返回 所 要 读 取 文 件 的 
Block 列表 ,其 中 每 个 Block、NameNode 都 会 返回 有 该 block 副本 的 DataNode 地 址 。 

(3) 客户 端 开发 库 对 这 个 输入 流 调用 read0 〇 ) 方 法 开始 读 取 数据 。 

(4) 开发 库 会 选取 离 客 户 端 最 近 的 DataNode 来 读 取 Block; 读 取 完 当前 Block 的 数据 
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图 4-3 客户 端 从 HDFS 中 读 取 数据 


后 ,关闭 与 当前 DataNode 连接 ,并 为 下 一 个 Block 寻找 最 佳 的 DataNode。 

(5) 在 本 次 Block 列表 读 取 完成 后 , 且 文 件 的 读 取 还 没有 结束 ,客户 端 会 继续 向 
NameNode 获取 下 一 批 Block 列表 。 

(6) 整个 文件 读 取 完 成 后 , 且 每 个 DataNode 读 取 时 都 未 出 现 错误 ,调用 close() 方 法 关 
闭 DFSInputStream, (每 读 取 完 一 个 Block 都 会 进行 Checksum 验证 ,如 果 读 取 DataNode 
时 出 现 错误 ,客户 端 会 通知 NameNode, 然 后 从 下 一 个 拥有 Block 复 本 的 DataNode 继 
续 读 ) 。 


4.1.4 文件 的 写 人 


文件 的 写 人 是 指 客户 端 将 文件 写 人 DFS 文件 系统 的 过 程 , 如 图 4-4 所 示 为 客户 端 以 
及 与 之 交互 的 HDFS NameNode, DataNode 的 写 数据 流 的 过 程 。 
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图 4-4 客户 端 将 数据 写 入 HDFS 


下 面 来 具体 分 析 一 下 文件 的 写 入 过 程 。 

(1) 客户 端 开 发 库 通过 对 Distributed FileSystem 对 象 调用 create() 函数 来 创建 文件 。 

(2) 客户 端 开发 库 向 NameNode 发 出 创建 新 文件 的 请 求 ,NameNode 执行 各 种 不 同 的 
检查 以 确保 这 个 文件 不 存在 ,并 且 客 户 端 有 创建 该 文件 的 权限 。 如 果 这 些 检查 通过 ， 
NameNode 就 会 为 创建 新 文件 作 一 条 记录 ;否则 ,文件 创建 失败 并 向 客户 端 抛 出 一 个 
IOException 异常 。 

(3) 客户 端 调用 write 方法 写 人 数据 ,首先 会 将 它 分 成 一 个 个 的 replicas( 数 据 包 ) ,并 写 
人 和 内 部 队列 , 称 为 “数据 队列 ”(data queue) ,并 向 NameNode 申请 新 的 Block ,获取 用 来 存储 
这 些 replicas 的 合适 的 DataNode 列表 。 

(4) 开始 以 管道 (pipeline) 的 形式 将 packet 写 入 所 有 的 replicas 中 。 开 发 库 把 packet 
以 流 的 方式 写 和 第 一 个 DataNode, 该 DataNode 把 packet 存储 后 ,再 将 其 传递 给 在 此 管道 
中 的 下 一 个 DataNode, 直 到 最 后 一 个 DataNode。 这 种 写 数据 的 方式 呈现 流水 线 的 形式 。 

(5) DFSOutputStream 也 维护 着 一 个 内 部 数据 包 队 列 来 等 待 DataNode 的 回执 , 称 为 
“确认 队列 ”(ack queue) 。 当 收 到 管道 中 所 有 DataNode 确认 信息 后 ,该 数据 包 才 会 从 确认 
队列 删除 。 如 果 传 输 过 程 中 ,有 某 个 DataNode 出 现 故 障 ,当前 的 管道 会 被 关闭 ,出 现 故 障 
的 DataNode 会 从 当前 的 管道 中 移 除 ,剩余 的 Block 会 在 剩 下 的 DataNode 中 继续 以 管道 的 
形式 传输 ,同时 NameNode 会 分 配 一 个 新 的 DataNode, 保 持 replicas 设 定 的 数量 。 

(6) 客户 端 完成 数据 的 写 入 后 ,会 调用 DFSOutputStream 的 close() 方 法 。 

(7) 该 操作 将 在 联系 NameNode 上 且 发 送 文件 写 人 完成 信号 之 前 ,等 待 确认 。 
NameNode 已 经 知道 文件 由 哪些 块 组 成 (通过 Datastreamer 询问 数据 块 的 分 配 ) ,所 以 它 在 
返回 成 功 前 只 需要 等 待 数据 块 进行 最 小 量 的 复制 。 


4.1.5 文件 的 一 致 模型 


文件 系统 的 一 致 模型 描述 了 对 文件 读 写 的 数据 可 见 性 。HDFS 为 性 能 牺牲 了 一 些 
POSIX 请 求 , 因 此 一 些 操作 可 能 比 想象 的 困难 。 
在 创建 一 个 文件 之 后 ,该 文件 在 文件 系统 的 命名 空间 中 是 可 见 的 ,如 下 所 示 。 


Path p=new Path ("p"); 
Fs.create (p); 
assertThat (fs.exists (p),is (true) ); 


但 是 , 写 入 文件 的 内 容 并 不 保证 能 被 看 见 , 即 使 数据 流 已 经 被 刷新 。 所 以 文件 长 度 显示 


Path p=new Path ("p"); 

OutputStream out= fs.create (p); 

out .write ("content".getBytes ("UTF- 8")); 

out. flush () ; 

assertThat (fs.getFileStatus (p) -getLen () , is (OL) ) ; 


当 写 人 的 数据 超过 一 个 块 后 ,新 的 reader 就 能 看 见 第 一 个 块 。 之 后 的 块 也 不 例外 。 总 
之 ,其 他 reader 无 法 看 见 当前 正在 写 人 的 块 。 
HDFS 提供 一 个 方法 来 强制 所 有 的 缓存 与 数据 节点 同步 , 即 对 FSDataOutputStream 


调用 sync() 方 法 。 当 sync() 方 法 返回 成 功 后 ,对 所 有 新 的 reader 而 言 , HDFS 能 保证 文件 
中 到 目前 为 止 写 入 的 数据 均 可 见 且 一 致 。 万 一 发 生 冲 突 ( 与 客户 端 或 HDFS) ,也 不 会 造成 
数据 丢失 。 

Path p=new Path ("p"); 

FSDataOutputStream out=fs.create (p); 

out.write("content".getBytes ("UTF- 8")); 

out.flush(); 

out. sync (); 

assertThat (f£s.getFileStatus (p) .getLen(), is(((long) "content".length()))); 

该 操作 类 似 于 POSIX 中 的 fsync 系统 调用 ,该 调用 将 提交 一 个 文件 描述 符 的 缓冲 数 
据 。 例 如 ,利用 标准 Java API 将 数据 写 入 本 地 文件 ,能 够 在 刷新 数据 流 且 同步 之 后 看 到 具 
体 文件 内 容 。 

FileOutputStream out=new FileOutputStream(localFile) ; 

out .write ("content".getBytes ("UTF- 8") ); 

out. flush () ; //£1ush to operating system 


out.getFD() .sync(); //sync to disk 
assertThat (localFile.length(), is(((long) "content".length()))); 


在 HDFS 中 关闭 一 个 文件 其 实 还 执行 了 一 个 隐 含 的 sync() 。 


Path p=new Path ("p"); 

OutputStream out= fs.create (p); 

out .write ("content".getBytes ("UTF- 8") ); 

out.close(); 

assertThat (fs.getFileStatus (p) .getLen(),is(((long) "content".length()))); 


这 个 一 致 模型 与 具体 设计 应 用 程序 的 方法 有 关 。 如 果 不 调用 sync() ,那么 一 旦 客户 端 
或 系统 发 生 故 障 ,就 可 能 失去 一 个 块 的 数据 。 对 很 多 应 用 来 说 ,这 是 不 可 接受 的 ,所 以 我 们 
应 该 在 适当 的 地 方 调用 sync()。 例 如 ,在 写 入 一定 的 记录 或 字 节 之 后 。 尽 管 sync() 操 作 被 
设计 为 尽量 减少 HDFS 负载 ,但 它 仍然 有 开销 ,所 以 在 数据 健壮 性 和 吞吐 量 之 间 就 会 有 所 
取舍 。 应 用 依赖 就 比较 能 接受 ,通过 不 同 的 sync() 频 率 来 衡量 应 用 程序 ,最 终 找到 一 个 合 
适 的 平衡 。 


42 HDFS HJ HA HL 


Hadoop 2. 0. 0 版 本 之 前 ,NameNode 是 HDFS 集群 的 单 点 故障 点 ,NameNode 作为 集 
群 的 首脑 ,存放 着 集群 中 所 有 文件 的 元 数据 ,一 旦 该 节点 出 现 故障 将 导致 整个 集群 不 可 用 ， 
直到 重启 NameNode 或 者 重新 启动 一 个 NameNode 节点 。 


4.2.1 为 什么 有 HA 机 制 


NameNode 出 现 故障 后 必须 重启 或 重新 启动 一 个 新 的 NameNode 节点 。 在 这 样 的 情 
OLE ,要 想 从 一 个 失效 的 NameNode 恢复 ,系统 管理 员 需 启动 一 个 拥有 文件 系统 元 数据 副 
本 的 新 的 NameNode, 并 配置 DataNode 和 客户 端 ,以 便 使 用 这 个 新 的 NameNode。 新 的 


NameNode 直到 满足 以 下 情形 才能 响应 服务 。 

(1) 将 命名 空间 的 映像 导入 内 存 中 ; 

(2) 重 做 编辑 日 志 ; 

(3) 接收 到 足够 多 的 来 自 DataNode 的 数据 块 报告 并 退出 安全 模式 。 

对 于 一 个 大 型 并 拥有 大 量 文件 和 数据 块 的 集群 ,NameNode 的 冷 启动 需要 30 分 钟 , 甚 
至 更 长 时 间 。 

系统 恢复 时 间 太 长 ,也 会 影响 到 日 常 维护 。 事 实 上 ,NameNode 失效 的 可 能 性 非常 低 ， 
所 以 在 实际 应 用 中 计划 系统 失效 时 间 就 显得 尤为 重要 。 

为 了 解决 上 述 问题 ,在 Hadoop 2. 0. 0 及 其 以 后 的 版 本 中 ,新 增 了 对 高 可 靠 性 (HA) 的 
支持 。 在 这 一 实现 中 ,配置 了 一 对 活动 -备用 (active-standby) NameNode。 当 活动 
NameNode 失效 ,备用 NameNode 就 会 接管 它 的 任务 并 开始 服务 于 来 自 客户 端的 请 求 , 不 
会 有 任何 明显 中 断 。 


4.2.2 HA 集群 和 架构 


为 了 实现 集群 的 高 可 用 性 (HA) ,就 需要 对 集群 架构 上 做 如 下 修改 。 

(1) NameNode 之 间 需 要 通过 高 可 用 的 共享 存储 实现 编辑 日 志 的 共享 (在 早期 的 高 可 
用 实现 版 本 中 ,需要 一 个 NFS 过 滤器 来 辅助 实现 ,但 是 在 后 期 版 本 中 将 提供 更 多 的 选择 , 比 
如 构建 于 ZooKeeper 之 上 的 BookKeeper 这 样 的 系统 ), 当 备用 NameNode 接管 工作 之 后 ， 
它 将 通读 共享 编辑 日 志 直 至 末尾 ,以 实现 与 活动 NameNode 的 状态 同步 ,并 继续 读 取 由 活 
动 NameNode 写 人 的 新 条 目 。 

(2) DataNode 需要 同时 向 两 个 NameNode 发 送 数据 块 处 理 报告 ,因为 数据 块 的 映射 信 
息 存 储 在 NameNode 的 内 存 中 ,而 非 磁盘 。 

(3) 客户 端 需要 使 用 特定 的 机 制 来 处 理 NameNode 的 失效 问题 ,这 一 机 制 对 用 户 是 透 
明 的 。 

在 活动 NameNode 失效 之 后 ,备用 NameNode 能 够 快速 ( 几 十 秒 的 时 间 ) 实 现任 务 接 
管 ,因为 最 新 的 状态 存储 在 内 存 中 : 包括 最 新 的 编辑 日 志 条 目 和 最 新 的 数据 块 映射 信息 。 
实际 观察 到 的 失效 时 间 略 长 一 点 (需要 1 分 钟 左右 ), 这 是 因为 系统 需要 保守 地 确定 活动 
NameNode 是 否 真 的 失效 了 。 

在 活动 NameNode 失效 上 且 备用 NameNode 也 失效 的 情况 下 (当然 这 类 情况 发 生 的 概率 
非常 低 ) ,管理 员 依旧 可 以 申明 一 个 备用 NameNode 并 实现 冷 启动 。 这 类 情况 并 不 会 比 非 
高 可 用 (no-HA) 的 情况 更 差 , 并 且 从 操作 的 角度 讲 这 是 一 个 进步 ,因为 上 述 处 理 已 是 一 个 标 
准 的 处 理 过 程 并 植 和 人 Hadoop 中 。 

HA 架构 如 图 4-5 所 示 。 

HA 架构 解释 如 下 。 

(1) 只 有 一 个 NameNode 是 Active 额 ,并 且 只 有 这 个 ActiveNameNode 能 提供 服务 ， 
改变 NameSpace。 以 后 可 以 考虑 让 StandbyNameNode 提供 服务 。 

(2) 提供 手动 Failover, 在 升级 过 程 中 ,Failover 在 NameNode-DataNode 之 间 写 不 变 的 
情况 下 才能 生效 。 

(3) 在 之 前 的 NameNode 重新 恢复 之 后 不 能 提供 Failback。 
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图 4-5 HA 架构 


(4) 数据 一 致 性 比 Failover 更 重要 。 

(5) 尽量 少 用 特殊 的 硬件 。 

(6) HA 的 设置 和 Failover 都 应 该 保证 在 两 者 操作 错误 或 者 配置 错误 的 时 候 , 不 得 导 
致 数据 损坏 。 

(7) NameNode 的 短期 垃圾 回收 不 应 该 触发 Failover。 

(8) DataNode 会 同时 向 NameNode Active 和 NameNode Standby 汇报 块 的 信息 。 
NameNode Active 和 NameNode Standby 通过 NFS 备份 MetaData 信息 到 一 个 磁盘 上 面 。 
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集群 的 全 部 元 数据 都 存放 在 NameNode 的 内 存 中 , 当 集群 扩大 到 一 定 程度 ,NameNode 
进程 使 用 的 内 存 可 能 达到 数 百 GB, 与 此 同时 ,所 有 的 元 数据 信息 的 读 取 和 操作 都 需要 与 
NameNode 进行 通信 ,在 集群 规模 变 大 后 ,NameNode 成 为 性 能 的 瓶颈 。Hadoop2. 0. 0 之 前 
的 HDFS 架构 中 ,在 整个 HDFS 集群 中 只 有 一 个 名 字 空 间 ,并且 只 有 单独 一 个 NameNode, 
这 个 NameNode 负责 对 这 个 单独 的 名 字 空 间 进 行 管理 。 这 也 正 是 单 点 失效 的 隐患 所 在 。 
本 节 中 的 HDFS Federation 就 是 针对 当前 HDFS 架构 上 的 缺陷 所 做 出 的 改进 。 

简单 说 ,HDFS Federation 就 是 使 得 HDFS 支持 多 个 名 字 空 间 , 并 且 人 允许 在 HDFS 中 
同时 存在 多 个 NameNode。 


4.3.1 为 什么 引入 Federation 机 制 


引入 Federation 的 最 主要 原因 是 对 HDFS 系统 中 文件 的 隔离 ,Federation 能 够 快速 解 
决 大 部 分 单 NameNode HDFS 的 问题 。 

下 面 来 看 一 下 单个 NameNode 的 HDFS 架构 ,如 图 4-6 所 示 。 

单个 NameNode 的 HDFS 包含 以 下 两 层 结 构 。 
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图 4-6 单个 NameNode 的 架构 


(1) NameSpace 管理 目录 ,文件 和 数据 块 。 它 支持 常见 的 文件 系统 操作 ,如 创建 文件 、 
修改 文件 ,删除 文件 等 。 

(2) Block Storage 由 两 部 分 组 成 。 

® Block Management 维护 集群 中 DataNode 的 基本 关系 , 它 支持 数据 块 相关 的 操作 ， 
如 创建 数据 块 , 删 除数 据 块 等 。 同 时 , 它 也 会 管理 副本 的 复制 和 存放 。 

@ Physical Storage 存储 实际 的 数据 块 并 提供 针对 数据 块 的 读 写 服务 。 

单个 NameNode 的 HDFS 架构 只 允许 整个 集群 中 存在 一 个 NameSpace, 而 该 
NameSpace 被 仅 有 的 一 个 NameNode 管理 。 这 个 架构 使 得 HDFS 非常 容易 实现 ,但 是 , 它 
在 具体 实现 过 程 中 会 出 现 一 些 模糊 点 ( 见 图 4-6) ,进而 导致 了 很 多 局 限 性 (下 面 将 要 详细 说 
明 ) ,当然 这 些 局 限 性 只 有 在 拥有 大 集群 的 公司 (如 百度 .腾讯 等 ) 出 现 。 

单个 NameNode 的 HDFS 架构 的 局 限 性 如 下 。 

(1) 性 能 的 瓶 天。 由 于 是 单个 NameNode 的 HDFS 架构 ,因此 整个 HDFS 文件 系统 的 
吞吐 量 受 限于 单个 NameNode 的 吞吐 量 。 

(2) 隔离 问题 。 由 于 HDFS 仅 有 一 个 NameNode, 无 法 隔离 各 个 程序 ,因此 HDFS 上 
的 一 个 实验 程序 就 很 有 可 能 影响 整个 HDFS 上 运行 的 程序 。 在 HDFS Federation 中 ,可 以 
用 不 同 的 NameSpace 来 隔离 不 同 的 用 户 应 用 程序 ,使 得 不 同 NameSpace Volume 中 的 程序 
互相 不 影响 。 

(3) 集群 的 可 用 性 。 在 只 有 一 个 NameNode 的 HDFS 中 ,此 NameNode 的 宕 机 无 疑 会 
导致 整个 集群 不 可 用 。 

(4) NameSpace 和 Block Management 的 紧密 耦合 。 当 前 在 NameNode 中 的 
NameSpace 和 Block Management 组 合 的 紧密 耦合 关系 会 导致 实现 另外 一 套 NameNode Jr 
案 比较 困难 ,而 且 也 限制 了 其 他 想 要 直接 使 用 块 存 储 的 应 用 。 

Federation 是 简单 健壮 的 设计 ,由 于 联盟 中 各 个 NameNode 之 间 是 相互 独立 的 ， 
Federation 大 部 分 改变 是 在 DataNode.Config 和 Tools, mi NameNode 本 身 的 改动 非常 少 ， 
这 样 NameNode 原先 的 健壮 性 不 会 受到 影响 。 

Federation 比分 布 式 的 NameNode 简单 ,虽然 这 种 实现 的 扩展 性 比 起 真正 的 分 布 式 
NameNode 要 小 些 , 但 是 可 以 迅速 满足 需求 。 


另外 一 个 原因 是 Federation 良好 的 向 后 兼容 性 ,已 有 的 单 NameNode 集群 的 部 署 配置 
不 需要 任何 改变 就 可 以 继续 工作 。 


4.3.2 Federation 架构 


Fedetration 架构 如 图 4-7 所 示 。 
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图 4-7 Federation 架构 


HDFS Federation 使 用 了 多 个 独立 的 NameNode/NameSpace. JA iti HDFS 的 命名 服 
务 能 够 水 平 扩张 。 

HDFS Federation 中 的 NameNode 之 间 是 联合 的 , 即 它们 直接 相互 独立 且 不 需要 互相 
协调 ,各 自分 工 , 管 理 自己 的 区 域 。 分布 式 的 DataNode 对 联合 的 NameNode 来 说 是 通用 的 
数据 块 存储 设备 。 每 个 DataNode 要 向 集群 中 所 有 的 NameNode 注册 , 且 周 期 性 地 向 所 有 
NameNode 发 送 心跳 和 块 报告 ,并 执行 所 有 NameNode 的 命令 。 

单个 NameNode 的 HDFS 只 有 一 个 名 字 空 间 , 它 使 用 全 部 的 块 。 而 Federation HDFS 
中 有 多 个 独立 的 NameSpace, 并 且 每 一 个 名 字 空 间 使 用 一 个 块 池 (Block Pool) 。 

单个 NameNode 的 HDFS 中 只 有 一 组 块 , 而 Federation HDFS 中 有 多 组 独立 的 块 。 块 
池 就 是 属于 同一 个 名 字 空 间 的 一 组 块 。 

所 谓 块 池 就 是 属于 单个 名 字 空 间 的 一 组 Block 。 每 个 DataNode 为 所 有 的 块 池 存 储 块 。 
DataNode 是 一 个 物理 概念 ,而 块 池 是 一 个 重新 将 块 划分 的 逻辑 概念 。 同 一 个 DataNode 中 
可 以 存 着 属于 多 个 块 池 的 多 个 块 。 块 池 人 允许 一 个 名 字 空 间 在 不 通知 其 他 名 字 空 间 的 情况 
下 ,为 一 个 新 的 Block 创建 Block ID。 同 时 ,一 个 NameNode 失效 不 会 影响 其 他 的 
DataNode 的 服务 。 

当 DataNode 与 NameNode 建立 联系 并 开始 对 话 后 自动 建立 块 池 。 每 个 Block 都 是 唯 
一 标识 ,这 个 标识 称 为 扩展 块 ID(Extended Block ID=BlockID 十 BlockID)。 这 个 扩展 的 
块 ID 在 HDFS 集群 之 间 都 是 唯一 的 ,为 以 后 集群 归并 创造 了 条 件 。 


DataNodeHong 中 的 数据 结构 都 是 通过 块 池 ID(BlockPooliD) 索 引 , 即 DataNode 中 的 
BlockMap, Storage 等 都 通过 BPID 索引 。 

在 HDFS 中 ,所 有 的 更 新 . 回 滚 都 是 以 NameNode 和 BlockPool 为 单元 发 生 的 , 即 同 
HDFS Federation 中 不 同 的 NameNode/BlockPool 之 间 没 有 什么 关系 。 

在 DataNode 中 ,对 应 于 每 个 NameNode 都 有 一 个 相应 的 线程 。 每 个 DataNode 会 去 每 
一 个 NameNode 注册 ,并 且 周 期 性 地 给 所 有 的 NameNode 发 送 心 跳 , 即 DataNode 的 使 用 报 
告 。DataNode 还 会 给 NameNode 发 送 其 所 在 的 块 池 的 块 报告 (block report) 。 由 于 有 多 个 
NameNode 同时 存在 ,因此 任何 一 个 NameNode 都 可 以 随时 动态 加 入 、 删除 和 更 新 。 


4.3.3 多 命名 空间 管理 


Federation 中 存在 多 个 命名 空间 ,如 何 划分 和 管理 这 些 命 名 空间 非常 关键 。 在 
Federation 中 采用 “文件 名 hash” 的 方法 ,因为 该 方法 的 locality 非常 差 。 例 如 ,查看 某 个 目 
录 下 面 的 文件 ,如 果 采 用 文件 名 hash 的 方法 存放 文件 , 则 这 些 文件 可 能 被 放 到 不 同 
NameSpace 中 ,HDFS 需要 访问 所 有 NameSpace, 代 价 过 大 。 为 了 方便 管理 多 个 命名 空间 ， 
HDFS Federation 采用 了 经 典 的 Client Side Mount Table。 

如 图 4-8 所 示 ,下面 四 个 深 色 三 角形 代表 一 个 独立 的 命名 空间 ,上 方 浅 色 的 三 角形 代表 
从 客户 角度 去 访问 的 子 命名 空间 。 各 个 深 色 的 命名 空间 Mount 到 浅 色 的 表 中 ,客户 可 以 访 
问 不 同 的 挂 载 点 来 访问 不 同 的 命名 空间 ,这 就 如 同 在 Linux 系统 中 访问 不 同 挂 载 点 一 样 。 
这 就 是 HDFS Federation 中 命名 空间 管理 的 基本 原理 : 将 各 个 命名 空间 挂 载 到 全 局 
mount-table 中 ,就 可 以 做 将 数据 到 全 局 共享 ;同样 的 命名 空间 挂 载 到 个 人 的 mount-table 
中 ,这 就 成 为 应 用 程序 可 见 的 命名 空间 视图 。 
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图 4-8 Federation 中 名 字 空 间 


本 章 小 结 


通过 本 章 的 学 习 , 大 家 基本 掌握 了 HDFS 的 运行 机 制 , 接 下 来 回顾 一 下 本 章 中 的 知 
识 点 。 
(1) RPC 作为 客户 端 与 服务 端的 通信 桥梁 ,其 重要 性 不 言 而 喻 ,在 宏观 上 学 习 了 RPC 
的 调用 过 程 后 ,还 从 细节 上 分 析 了 RPC 的 运行 过 程 以 及 其 各 个 流程 的 作用 。 

(2) HDFS 文件 系统 对 文件 的 读 取 和 写 入 ,要 明白 从 HDFS 文件 系统 中 读 取 、 写 人 数据 


的 具体 流程 ,对 流程 图 的 每 个 步骤 都 要 理解 并 掌握 。 在 写 入 数据 的 过 程 中 要 注意 在 HDFS 
中 文件 是 有 多 个 备份 的 。 

(3) 文件 的 一 致 模型 ,要 理解 “一 次 写 人 ,多 次 读 取 ”。 

(4) HDFS 的 高 可 用 ,解决 了 单 点 故障 ,提高 了 HDFS 的 可 靠 性 ,要 掌握 HA 的 运行 机 
制 和 基本 架构 。 

(5) HDFS 的 Federation 机 制 解决 了 HDFS 中 NameNode 内 存 瓶颈 的 问题 ,要 分 清 
HA 和 Federation 的 区 别 , 两 者 都 是 增加 了 NameNode 的 数量 ,但 HA 是 保障 了 HDFS 的 
可 靠 性 ,其 中 增加 的 NameNode 节点 是 备用 的 ,而 Federation 中 增加 的 NameNode 是 联合 
运作 的 。 

(6) 掌握 HDFS Federation 的 运行 机 制 和 基本 架构 ,以 及 多 个 命名 空间 的 管理 问题 。 


3 ” 题 
1. 填空 题 
(1) 在 HDFS 文 件 系 统 读 取 文件 的 过 程 中 ,客户 端 通过 对 输入 流 调用 方法 开 
始 读 取 数 据 ; 写 入 文件 的 过 程 中 客户 端 通过 对 输出 流 调用 方法 开始 写 人 数据 。 
(2) HDFS 全 部 文件 的 元 数据 是 存储 在 NameNode 节点 的 (硬盘 /内 存 ) ,为 了 
解决 这 个 瓶颈 ,HDFS 产生 了 (HA 机 制 /Federation 机 制 ) 。 
2. 问答 题 


(1) MEWE MAE RPC 的 实现 流程 。 

(2) 根据 自己 的 理解 画 出 HDFS 文件 系统 中 文件 读 取 的 流程 ,并 解释 其 中 的 各 个 步骤 。 

(3) 在 HDFS 文件 系统 中 ,文件 在 写 人 过 程 中 ,默认 备份 了 几 份 ? NameNode 在 文件 写 
入 到 什么 程度 时 确定 文件 写 入 成 功 ? 

(4) HDFS 的 HA 机 制 和 Federation 机 制 的 作用 分 别 是 什么 ? 

(5) 在 一 个 没有 HA 机 制 的 HDFS 集群 上 实现 高 可 用 ,至 少 需要 额外 添加 几 台 节点 ? 
解释 每 台 节 点 的 作用 。 

(6) 引入 Federation 机 制 后 ,多 台 NameNode 中 宕 机 一 台 , 剩 余 的 NameNode 是 否 可 
以 正常 的 工作 ? 简要 益 述 你 的 理由 。 


访 问 HDFS 


本 章 提 要 


在 前 面 的 章节 中 ,我 们 已 对 Hadoop 分 布 式 文件 系统 HDFS 有 了 简单 的 认识 ,包括 
HDFS 的 基本 原理 .架构 以 及 核心 设计 ,并 且 也 了 解 了 HDFS 的 工作 机 制 。HDFS 虽然 是 
Hadoop 的 一 个 组 件 , 但 同时 HDFS 本 身 也 是 独立 的 ,并 不 依赖 于 MapReduce 运行 环境 ,可 
以 作为 一 个 独立 的 分 布 式 文件 系统 来 使 用 。Hadoop 作为 一 个 分 布 式 文件 系统 可 以 通过 接 
口 来 访问 HDFS。 本 章 将 通过 命令 行 接口 Java 接口 以 及 其 他 常用 的 接口 来 进一步 认识 
HDFS, 


5.1 命令 行 常用 接口 


接 下 来 ,将 通过 命令 行 与 HDFS 交互 。HDFS 还 有 很 多 其 他 接口 ,但 命令 行 是 最 简单 
的 ,同时 也 是 许多 开发 者 最 熟悉 的 。 所 有 的 命令 均 由 bin/hadoop 脚本 引发 ,不 指定 参数 运 
行 Hadoop 脚本 会 打印 所 有 命令 的 描述 。 

在 设置 伪 分 布 配置 时 ,有 两 个 属性 需要 进一步 解释 。 首 先是 fs. default. name, 设 置 为 
hdfs://localhost/, 用 来 为 Hadoop 设置 默认 文件 系统 。 文 件 系统 是 由 URI 指定 的 ,这 里 
已 使 用 了 一 个 HDFS URI 来 配置 HDFS 为 Hadoop 的 默认 文件 系统 。HDFS 的 守护 程序 
将 通过 这 个 属性 来 决定 HDFS 名 称 节点 的 宿主 机 和 端口 。 我 们 将 在 localhost 上 运行 ,默认 
端口 为 8020。 这 样 一 来 ,HDFS 用 户 将 通过 这 个 属性 得 知名 称 节点 在 哪里 运行 ,以 便于 连 
RIE., 

第 二 个 属性 dfs. replication 设 为 1, 这 样 HDFS 就 不 会 按 默认 设置 将 文件 系统 块 复制 
3 份 。 在 单独 一 个 数据 节点 上 运行 时 ,HDFS 无 法 将 块 复制 到 3 个 数据 节点 上 ,所 以 会 持续 
警告 块 的 副本 不 够 。 此 设置 可 以 解决 这 个 问题 。 


5.1.1 HDFS 操作 体验 


文件 系统 已 经 就 绪 , 可 以 执行 所 有 其 他 文件 系统 都 有 的 操作 。 例 如 , 读 取 文件 ,创建 目 
录 , 移 动 文件 ,删除 数据 , 列 出 索引 目录 等 。 输 入 hadoop fs -help 命令 , 即 可 看 到 所 有 命令 详 
细 的 帮助 文件 。 

首先 从 本 地 文件 系统 将 一 个 文件 复制 到 HDFS。 


%hadoop fs - copyFromLocal input/docs/quangle.txt hdfs://localhost 


/user/tom/quangle.txt 


该 命令 调用 Hadoop 文件 系统 的 shell 命令 fs, 该 命令 提供 了 一 系列 子 命令 ,在 本 例 中 
执行 的 是 -copyFromLocal。 本 地 文件 quangle. txt 被 复制 到 运行 在 localhost 上 的 HDFS 实 
例 中 ,路 径 为 /user/tom/quangle. txt。 事 实 上 ,可 以 简化 命令 格式 以 省 略 主 机 的 URI 默认 
设置 , 即 省 略 hdfs: //localhost, 因 为 该 项 已 在 core-sile. xml 中 指定 。 


%hadoop fs- copyFromLocal input/docs/quangle.txt user/tom 
/quangle.txt 


也 可 以 使 用 相对 路 径 , 并 将 文件 复制 到 HDFS 的 home 目录 中 ,在 本 例 中 为 /user/tom: 
%hadoop fs - copyFromLocal input/docs/quangle.txt quangle.txt 


把 文件 复制 回 本 地 文件 系统 ,并 检查 是 否 一 致 : 


%hadoop fs- copyToLocal quangle.txt quangle.copy.txt 

%md5 input/docs/quangle.txt quangle.copy.txt 

MDS (input/docs/quangle.txt)=al6f£231daéb05e2ba7a339320e7dacd9 
MD5 (quangle. copy.txt)=al6£231dab05e2ba7a339320e7dacd9 


由 于 MDS 键 值 相同 ,表明 这 个 文件 在 HDFS 之 旅 中 得 以 幸存 并 保存 完整 。 最 后 ,看 一 
下 HDFS 文件 列表 。 创 建 一 个 目录 看 它 在 列表 中 是 如 何 显示 的 : 


%hadoop fs- mkdir books 
%hadoop fs- ls 


运行 结果 如 下 : 


Found 2 items 
drwxr-xr-x - tom supergroup 0 2015-11-14 22:41 /user/tom/books 
-w+-r- _Ltomsupergroup 118 2015-11-14 22:29 /user/tom/quangle.txt 


返回 的 结果 信息 与 Unix 命令 ls -1 的 输出 结果 非常 相似 , 仅 有 细微 差别 。 第 1 列 显示 
的 是 文件 模式 。 第 2 列 是 这 个 文件 的 备份 数 (这 在 传统 Unix 文件 系统 是 没有 的 ) 。 由 于 在 
整个 文件 系统 范围 内 设置 的 默认 复 本 数 为 1, 所 以 这 里 显示 的 也 都 是 1。 这 一 列 的 开头 目录 
为 空 ,因为 在 本 例 中 没有 使 用 复 本 的 概念 一 一 目录 作为 元 数据 保存 在 NameNode 中 ,而 非 
DataNode 中。 第 3 列 和 第 4 列 显示 文件 的 所 属 用 户 和 组 别 。 第 5 列 是 文件 的 大 小 ,以 字 节 
为 单位 显示 ,目录 大 小 为 0。 第 6 列 和 第 7 列 是 文件 的 最 后 修改 日 期 与 时 间 。 第 8 列 是 文 
件 或 目录 的 绝对 路 径 。 


二 扩展 阅读 
HDFS 中 的 文件 访问 权限 


针对 文件 和 目录 ,HDFS 有 与 POSIX 非常 相似 的 权限 模式 。 
HDFS 提供 三 类 权限 模式 : 只 读 权 限 (r)、 写 入 权限 (w) 和 可 执行 权限 (x)。 读 取 文 
件 或 列 出 目录 内 容 时 需要 只 读 权限 。 写 入 一 个 文件 ,或 是 在 一 个 目录 上 创建 及 删除 文件 


或 目录 ,需要 写 入 权限 。 对 于 文件 而 言 ,可 执行 权限 可 以 忽略 ,因为 你 不 能 在 HDFS 中 
执行 文件 (与 POSIX 不 同 ) ,但 在 访问 一 个 目录 的 子 项 时 需要 该 权限 。 

每 个 文件 和 目录 都 有 所 属 用 户 (owner)、 所 属 组 别 (group) 及 模式 (mode)。 这 个 模 
式 是 由 所 属 用 户 的 权限 、 组 内 成 员 的 权限 及 其 他 用 户 的 权限 组 成 的 。 

默认 情况 下 ,可 以 通过 正在 运行 进程 的 用 户 名 和 组 名 来 唯一 确定 客户 端的 标识 。 但 
由 于 客户 端 是 远程 的 ,任何 用 户 都 可 以 简单 地 在 远程 系统 上 以 他 的 名 义 创建 一 个 账户 来 
进行 访问 。 因 此 ,作为 共享 文件 系统 资源 和 防止 数据 意外 损失 的 一 种 机 制 ,权限 只 能 供 
合作 团体 中 的 用 户 使 用 ,而 不 能 在 一 个 不 友好 的 环境 中 保护 资源 。 注 意 ,最 新 版 的 
Hadoop 已 经 支持 Kerberos 用 户 认证 ,该 认证 去 除了 这 些 限 制 。 但 是 ,除了 上 述 限 制 之 
外 ,为 防止 用 户 或 自动 工具 及 程序 意外 修改 或 删除 文件 系统 的 重要 部 分 ,启用 权限 控制 
还 是 很 重要 的 (这 也 是 默认 的 配置 ,参见 dfs. permissions 属性 )。 

如 果 启 用 权限 检查 ,就 会 检查 所 属 用 户 权限 ,以 确认 客户 端的 用 户 名 与 所 属 用 户 是 
否 匹 配 , 另 外 也 将 检查 所 属 组 别 权限 ,以 确认 该 客户 端 是 否 是 该 用 户 组 的 成 员 ; 若 不 符 ， 
则 检查 其 他 权限 。 

这 里 有 一 个 超级 用 户 (super-user) 的 概念 ,超级 用 户 是 NameNode 进程 的 标识 。 对 
于 超级 用 户 , 系 统 不 会 执行 任何 权限 检查 。 


5.1.2 HDFS 常用 命令 
在 终端 输入 hadoop fs -help 就 会 出 现 以 下 常用 命令 。 


Usage: hadoop fs [generic options] 

-appendToFile < localsrc> ... <dst>] 

-cat [-ignoreCre] < src> ...] 

一 checksum < src> ...] 

-chgrp [-R] GROUP PATH...] 

[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] 
-chown [-R] [OWNER] [: [GROUP]] PATH...] 
-copyFromLocal [-f] [-p] <localsrc>...<dst>] 
-copyToLocal [-p] [-ignoreCre] [-cre] <sre>...<localdst>] 
-count [-q] <path>...] 

-cp [-f] [-p |-p[topax]] <sre>...<dst>] 

- createSnapshot < snapshotDir> [< snapshotName> ]] 
-deleteSnapshot < snapshotDir>< snapshotName> ] 
-df [-h] [<path>...]] 

-du [-s] [-h] <path>...] 

- expunge] 

-get [-p] [-ignoreCrc] [- crc] <src>... <localdst>] 
-getfacl [-R] <path>] 

-getfattr [-R] {-n name |-d} [-e en] <path>] 
-getmerge [-nl] <srce><localdst>] 

-help [cmd ...]] 

-1s [-d] [-h] [-R] [<path>...]] 

[-mkdir [-p] <path> ...] 

[-moveFromLocal <localsrc> ... <dst>] 


一 moveToLocal <srce><localdst>] 
—mv <src>...<dst>] 
-put [-f] [-p] <localsrc> ...<dst>] 
— renameSnapshot < snapshotDir><oldName>< newName> ] 
-m [-f] [-r|-R] [-skipTrash] <src>...] 
-rmdir [-- ignore- fail-on-non- empty] <dir>...] 
-setfacl [-R] [{-b|-k} {-m|-x <acl_spec> } <path> ] | [-- set <acl_spec><path> ]] 
-setfattr {-n name [-v value] |-x name} <path>] 
—setrep [-R] [-w] <rep><path>...] 
-stat [format] <path>...] 
-tail [-f] <file>] 
- test- [defsz] <path>] 
[-text [-ignoreCrc] <src>...] 
-touchz <path> ...] 
[-usage [amd ...]] 

接 下 来 详细 介绍 HDFS 命令 行 常用 的 命令 。 

L 查看 文件 列表 

和 Linux 中 的 1s 命令 类 似 ,如 果 是 文件 , 则 返回 文件 在 HDFS 上 的 信息 ,返回 格式 
如 下 ， 


文件 名 < 副本 数 > 文件 大 小 修改 日 期 修改 时 间 权限 用 户 ID 组 ID 
如 果 是 目录 , 则 返回 它 直接 子 文件 的 一 个 列表 ,就 像 UNIX 中 一 样 , 目 录 返 回 列表 的 信 
| 息 如 下 : 
| 目录 名 <dir> 修 改 日 期 修改 时 间 权限 用 户 xp 组 ID 
fs 的 命令 格式 为 
hadoop fs-1s <args> 
2. 创建 目录 
HDFS 上 的 目录 结构 类 似 Linux, 根 目录 使 用 */” 表 示 。 下 面 的 命令 将 在 /user/hadoop 
目录 下 创建 目录 input。 
hadoop fs-mkdir/test/input 
hadoop fs-1s/test/ 
运行 结果 如 下 : 


Found 1 items 
drwxr-xr-x  - zkpk supergroup 9 2015-12-13 19:35 /test/input 


3. 文件 上 传 
上 传 文件 test. txt 到 input 下 。 


hadoop fs- put test.txt/test/input 
hadoop fs-1s/test/input/ 


运行 结果 如 下 : 


Found 1 items 
-rw-r--r-- 1 zkpk supergroup 17 2015-12-13 19:46 /test/input/test.txt 


该 命令 调用 Hadoop 文件 系统 的 shell 命令 fs ,提供 一 系列 的 子 命令 。 在 这 里 ,我 们 执 
行 的 是 -put。 本 地 文件 test. txt 被 上 传 到 运行 在 localhost 上 的 HDFS 实体 中 的 /test/ 
input/ 文 件 夹 中 。 

还 可 以 用 -copyFromLocal 参数 。 

4, FRH 

把 test. txt 下 载 到 本 地 。 


hadoop fs - get/test/input/test.txt 


还 可 以 用 -copyToLocal 参数 。 
5. 查看 文件 
查看 test. txt 内 容 。 


hadoop fs - -text /test/input/test.txt 
运行 结果 如 下 : 
Welcom to China! 


还 可 以 用 -cat、-tail 参数 查看 文件 的 内 容 。 但 是 对 于 压缩 结果 的 文件 只 能 用 -text 来 查 
看 ,否则 是 乱码 。 

6. 删除 数据 

删除 test. txt 文件 的 数据 。 


hadoop fs - mm /user/hadoop/input/test.txt 
运行 结果 如 下 : 


Dleted /test/input/test.txt 


5.2 Jaa% QO 


Hadoop 是 用 Java 写 的 ,本 小 节 要 深入 探索 Hadoop 的 FileSystem 类 ,与 Hadoop 的 某 
一 文件 系统 进行 交互 的 API。 虽 然 主要 关注 的 是 HDFS 的 实例 , 即 DistributedFileSystem， 
但 总 体 来 说 ,还 是 应 该 集成 FileSystem 抽象 类 ,并 编写 代码 ,以 保持 其 在 不 同文 件 系统 中 的 
可 移植 性 。 这 对 测试 用 户 编写 的 程序 非常 重要 ,例如 ,用 户 可 以 使 用 本 地 文件 系统 中 的 存储 
数据 快速 进行 测试 。 

Hadoop 有 一 个 抽象 的 文件 系统 概念 , HDFS 只 是 其 中 的 一 个 实现 。Java 抽象 类 
org. apache. hadoop. fs. FileSystem 定 义 了 Hadoop 中 的 一 个 文件 系统 接口 ,并且 该 抽象 类 
有 几 个 具体 实现 , 见 表 5-1。 

Hadoop 对 文件 系统 提供 了 许多 接口 , 它 一 般 使 用 URI 方案 来 选取 合适 的 文件 系统 实 
例 进行 交互 。 举 例 来 说 ,在 前 一 小 节 中 遇 到 的 文件 系统 命令 行 解释 器 可 以 操作 所 有 的 
Hadoop 文件 系统 命令 。 要 想 列 出 本 地 文件 系统 根 目录 下 的 文件 ,可 以 输入 以 下 命令 : 


%hadoop fs -1s file:/// 


大 数据 
re o>" eatin maak etre Oe iat an SRR E a Se oe PT mea Sy an ee oe tee” eee Gl 
R 5-1 Hadoop 文件 系统 
Java 实现 ( 均 包含 在 
文件 | URI org. apache. hadoop 包 中 ) HEFIR 
Local | file | fs. LocalFileSystem BET BP RE AU A SE A BE ARRE 
i ý 和 的 本 地 磁盘 文件 系统 RawLocalFileSystem 
HDFS | hdfs | hdfs. DistributedFileSystem pe se PS Me 
一 个 在 HTTP 上 提供 对 HDFS、 只 读 访 问 的 文件 系统 ( 尽 
HFTP | hftp | hdfs. hftpFileSystem 管 名 称 为 HFTP, 但 与 FTP 无 关 )。 通 常 与 distcp 结合 使 
用 以 实现 在 运行 不 同 版 本 的 HDFS 的 集群 之 间 复 制 数据 
HSFTP hdfs. HsftpFileSystem Ll R HDFS 只 读 访 问 的 文件 系统 (同上 ， 
一 个 构建 在 其 他 文件 系统 之 上 用 于 文件 存档 的 文件 系统 。 
HAR | har | fs. HarFileSystem Hadoop 存档 文件 系统 通常 用 于 需要 将 HDFS 中 文件 进行 
档 时 ,减少 NameNode 内 存 的 使 用 
hfs (去 CloudStore( 其 前 身 为 Kosmos 文件 系统 ) 是 类 似 于 HDFS 
hfs | fs. kfs. kosmosFileSystem | 或 者 谷歌 的 GFS 的 文件 系统 ,用 C++ 编写 。 详 见 http:// 
kosmosfs. sourceforge. net/ 
FTP ftp fs. ftp. FTPFileSystem 由 FTP 服务 器 支持 的 文件 系统 
S3 s3n | fs. ftp. FTPFileSystem 由 Amazon S3 支持 的 文件 系统 
53 3 fs, sa. S3FileSystem 由 Amazon S3 支持 的 文件 系统 ,以 块 格式 存储 文件 (与 
j me 7 HDFS 很 相似 ) 以 解决 S3 的 5GB 文件 大 小 限制 
尽管 运行 的 MapReduce 程序 可 以 访问 任何 文件 系统 (有 时 也 很 方便 ) ,但 在 处 理 大 数据 


集 时 ,仍然 需要 选择 一 个 具有 数据 本 地 优化 的 分 布 式 文件 系统 ,如 HDFS 或 KFS. 
从 Hadoop URL 中 读 取 数据 


要 从 Hadoop 文件 系统 中 读 取 文件 ,最 简单 的 方法 是 使 用 java. net. URL 对 象 打开 数 
据 流 ,进而 从 中 读 取 数据 。 具 体格 式 如 下 。 


S232.1 


InputStream in=null; 


try{ 


} finally{ 


} 


in=new URL ("hdfs://host/path") .openStream() ; 


// process in 


IoUtils.closeStream (in); 


让 Java 程序 能 够 识别 Hadoop 的 hdfs URL 方案 还 需要 一 些 额外 的 工作 。 这 里 采用 的 方 
法 是 通过 FsUrlStreamHandlerFactory 实例 调用 URL 中 的 setURLStreamHandlerFactory 
方法 。 由 于 Java 虚拟 机 只 能 调用 一 次 上 述 方法 ,因此 通常 在 静态 方法 中 调用 上 述 方法 。 这 
个 限制 意味 着 如 果 程 序 的 其 他 组 件 ( 如 不 受 你 控制 的 第 三 方 组 件 ) 已 经 声明 了 一 个 
URLStreamHandlerFactory 实例 ,将 无 法 再 使 用 上 述 方法 从 Hadoop 中 读 取 数据 。 例 5-1 


展示 的 程序 以 标准 输出 方式 显示 Hadoop 文件 系统 中 的 文件 ,类 似 于 Unix 中 的 cat 命令 。 
例 5-1 以 标准 输出 方式 显示 Hadoop 文件 系统 中 的 文件 。 


public class URLCat{ 
static{ 
URL. setURLStreamHandlerFactory (new FsUrlStreamHandlerFactory ()); 
} 
public static void main(String[] args) throws Exception{ 
InputStream in=null; 
try { 
in=new URL (args [0]) -openStream() ; 
TOUtils.copyBytes (in, System.out. 4096, false) ; 
} finally{ 
IOUtils. closeStream (in); 


} 


} 


可 以 调用 Hadoop 中 简洁 的 IOUtils 类 ,并 在 finally 子 句 中 关闭 数据 流 , 同 时 也 可 以 在 
输入 流 和 输出 流 之 间 复 制 数据 (本 例 中 为 System. out), copyBytes 方法 的 最 后 两 个 参数 ， 
第 一 个 用 于 设置 复制 的 缓冲 区 大 小 ,第 二 个 用 于 设置 复制 结束 后 是 否 关闭 数据 流 。 这 里 选 
择 自 行 关闭 输入 流 , 因 而 System, out 不 关闭 输入 流 。 

运行 结果 如 下 : 

(zkpk@naster 13 
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ry for your plat form. ` usin ng builtin-java claseas where applicable 


ne the top of the Crumpetty Tree 
he Quangle Wangle sat, 


But his face you could not see. 
pn account of his Beaver Hat. 


5.2.2 通过 FileSystem API 读 取 数据 


就 像 前 一 小 节 所 解释 的 一 样 , 有 时 候 无 法 在 应 用 中 设置 URLStreamHandlarFactory 实 
例 。 这 种 情况 下 ,需要 使 用 FileSystem API 来 打开 一 个 文件 的 输入 流 。 

Hadoop 文件 系统 中 通过 Hadoop Path 对 象 来 代表 文件 (而 非 java. io. File 对 象 ,因为 
它 的 语义 与 本 地 文件 系统 联系 太 紧 密 )。 你 可 以 将 一 条 路 径 视 为 一 个 Hadoop 文件 系统 
URI, 如 hdfs; //localhost/user/tom/quangle. txt, 

FileSystem 是 一 个 通用 的 文件 系统 API, 所 以 第 一 步 是 检索 需要 使 用 的 文件 系统 实例 ， 
这 里 是 HDFS。 获 取 FileSystem 实例 有 两 种 静态 工厂 方法 : 

public static FileSystem get (Configuration conf) throws IOException 

Public static FileSystem get (URI uri. ConfigUration conf) throws IOException 

Configuration 对 象 封 装 了 客户 端 或 服务 器 的 配置 ,通过 设置 配置 文件 读 取 类 路 径 来 实 
现 ( 如 conf/core-site. xml) 。 第 一 个 方法 返回 的 是 默认 文件 系统 (在 conflcore-site. xml 中 
指定 的 ,如 果 没 有 指定 , 则 使 用 默认 的 本 地 文件 系统 )。 第 二 个 方法 通过 给 定 的 URI 方案 和 
权限 来 确定 要 使 用 的 文件 系统 ,如 果 给 定 URI 中 没有 指定 方案 , 则 返回 默认 文件 系统 。 

有 了 FileSystem 实例 之 后 ,调用 open() 函数 来 获取 文件 的 输入 流 : 


Public FSDataInputStream open (Path f) throws IOException 
Public abstract FSDataInputStream open (Path f, int bufferSize) throws IOException 


第 一 个 方法 使 用 默认 的 缓冲 区 大 小 4KB。 
将 上 述 方法 结合 起 来 ,可 得 到 例 5-2。 
例 5-2 直接 使 用 FileSystem 以 标准 输出 格式 显示 Hadoop 文件 系统 中 的 文件 。 


public class FileSystemCat { 
public static void main(String[] args) throws Exception { 
String uri=args[0]; 
Configuration conf=new Configuration (); 
FileSystem fs=FileSystem.get (URI .create (uri), conf); 
InputStream in=null; 
try { 
in= fs .open (new Path (uri) ); 
IoUtils.copyBytes (in, System.out, 4096, false); 
} finally { 
IoUtils.closeStream (in) ; 


} 
} 


运行 结果 如 下 : 


15/12/10 01:51:4 util.NativeCodeLoader: Unable to load native-hadoop libra 
r 


for your platform... using builtin-java classes where applicable 


e top of the crumpetty Tree 
he Quangle Wangle sat, 


But his face you could not see. 


5.2.3 HARM 


FileSystem 类 有 一 系列 创建 文件 的 方法 。 最 简单 的 方法 是 给 准备 创建 的 文件 指定 一 个 
Path 对 象 ,然后 返回 一 个 用 于 写 人 数据 的 输出 流 : 


public FSDataOutputStream create (Path f)throws IOException 


上 述 方法 有 多 个 重 载 版 本 ,允许 指定 是 否 需要 强制 覆盖 已 有 的 文件 ,文件 备份 数量 、 写 
入 文件 时 所 用 缓冲 区 大 小 、 文 件 块 大 小 以 及 文件 权限 。 

create() 方 法 能 够 为 需要 写 入 且 当 前 不 存在 的 文件 创建 父 目录 。 尽 管 这 样 很 方便 ,但 有 
时 并 不 希望 这 样 。 如 果 你 希望 不 存在 父 目录 就 发 生 文件 写 入 失败 , 则 应 该 先 调用 exists() 方 法 
检查 父 目录 是 否 存在 。 

还 有 一 个 重 载 方法 Progressable, 用 于 传递 回调 接口 ,如 此 一 来 ,可 以 把 数据 写 入 数据 
节点 的 进度 通知 到 用 户 的 应 用 : 


package org.apache-hadoop.util; 

public interface Progressable { 
public void progress (); 

} 


一 种 新 建文 件 的 方法 ,是 使 用 append() 方 法 在 一 个 已 有 文件 末尾 追加 数据 (还 存在 
一 些 其 他 重 载 版 本 ) : 


public FSDataOutputStream append (Path f)throws IOException 


该 追加 操作 人 允许 一 个 writer 打开 文件 后 在 访问 该 文件 的 最 后 偏 移 量 处 追加 数据 。 有 
了 这 个 API, 某 些 应 用 可 以 创建 无 边界 文件 。 例 如 ,日 志文 件 可 以 在 机 器 重启 后 在 已 有 文件 
后 面 继续 追 加 数据 。 该 追加 操作 是 可 选 的 ,并 非 所 有 Hadoop 文件 系统 都 实现 了 该 操作 。 
例如 ,HDFS 支持 追加 ,但 S3 文件 系统 就 不 支持 。 

例 5-3 显示 了 如 何 将 本 地 文件 复制 到 Hadoop 文件 系统 。 每 次 Hadoop 调用 progress() 
方法 时 (也 就 是 每 次 将 64KB 数据 包 写 入 DataNode 管线 后 ) 打 印 一 个 时 间 点 来 显示 整个 运 
行 过 程 。 注 意 ,这 个 操作 并 不 是 通过 API 突现 的 ,因此 Hadoop 后 续 版 本 能 否 执行 该 操作 ， 
取决 于 该 版 本 是 否 修改 过 上 述 操作 。API 仅 能 让 用 户 知道 到 “正在 发 生 什么 事情 ”。 

例 5-3 将 本 地 文件 复制 到 Hadoop 文件 系统 。 


public class FileCopyWithProgress{ 
public static void main (String[] args) throws Exception{ 
String localSre=args[0]; 
String dst=args[1]; 
InputStream in=new BufferedInputStream(new FileInputStream(localSrc) ); 
Configuration conf=new Configuration () ; 
FileSystem fs=FileSystem.get (URI.create (dst). conf); 
OutputStream out= fs .create (new Path (dst), new Progressable() { 
public void progress() { 
System.out . print ("."); 
} 
H: 
IOUtils.copyBytes (in, out, 4096. true); 


运行 结果 如 下 : 


[zkpk@master ~]$ a com.mr.FiTeCop jome/z data /data 

15/12/10 03:36:43 WA u Na ‘odeLoader: Unable to load na adoop libre 

ry for your platform... using builtin- java classes where applicable 

[zkpkGmaster ~]$ hadoop fs -cat /data 

15/12/10 03:36:56 WARN util. Netdvecodatoaders Unable to load native-hadoop libra 
9 9 platform... builtin-java classes where applicable 

ne the top of the Crampetty ree 

he Quangle Wangle sat, 


ut his face you could not see. 


目前 ,其 他 Hadoop 文件 系统 写 入 文件 时 均 不 调用 progress() 方 法 。 将 在 后 续 章 节 中 
看 到 进度 对 于 MapReduce 应 用 的 重要 性 。 

接 下 来 介绍 一 下 写 入 操作 时 用 到 的 FSDataOutputStream 对 象 。FileSystem 实 - 
create() 方 法 返 FSDataOutputStream 对 象 ,与 FSDataInputStream 类 相似 , 它 也 有 一 
询 文 件 当前 位 置 的 方法 : 


package org.apache.hadoop. fs; 


public class FSDataOutputStream extends DataOutputStream implements Syncable{ 
public long getPos() throws IOException{ 
// implementation elided 
} 
//implementation elided 
} 


但 与 FSDatalnputStream 类 不 同 的 是 ,FSDataOutputStream 类 不 允许 在 文件 中 定位 。 


因为 HDFS 只 允许 对 一 个 已 打开 的 文件 顺序 写 人 ,或 在 现 有 文件 的 末尾 追加 数据 。 ey 
它 不 支持 在 除 文件 末尾 之 外 的 其 他 位 置 进行 写 入 。 因 此 , 写 入 时 定位 就 没有 什么 意义 。 
5.2.4 创建 目录 

FileSystem 实例 提供 了 创建 目录 的 方法 : 

public boolean mkdirs (Path f)throws IOException 

这 个 方法 可 以 一 次 性 新 建 所 有 必要 但 还 没有 的 父 目录 ,就 像 java. io. File 类 的 mkdirs( ) 方 
法 。 如 果 目 录 ( 以 及 所 有 父 目 录 ) 都 已 经 创建 成 功 , 则 返回 true。 通 常 , 不 需要 显示 创建 一 
目录 ,因为 调用 create() 方 法 写 入 文件 时 会 自动 创建 父 目 录 。 

例 5-4 显示 了 创建 目录 的 方法 。 

public class MkdirTest { 

public static void main(String[] args) throws IOException { 
Configuration conf=new Configuration () ; 


FileSystem fs=FileSystem.get (conf) ; 
fs.mkdirs (new Path("/ttt")); 


} 

} 

运行 结果 如 下 : 

[zkpk@naster ~] 


15/12/10 63:00:57 WAR Un 5 load native-hadoop Libr 
ry for your platform... using bulltin-java classes where applicable 
[zkpkemaster ~1$ hadoop fs -ls / 

15/12/10 03:00:59 WARN util.NativeCodeLoader: Unable to load native-hadoop Libri 
ry for your platform... using builtin-java classes where applicable 

Found 10 i 


Ee E ston are 205-22-2 ram 
5.2.5 查询 文件 系统 


任何 文件 系统 的 一 个 重要 特征 都 是 提供 其 目录 结构 浏览 和 检索 它 所 存 文件 和 目录 相关 
信息 的 功能 。 文 件 元 数据 FileStatus 类 封装 了 文件 系统 中 文件 和 目录 的 元 数据 ,包括 文件 
长 度 、 块 大 小 、 备 份 , 修 改 时 间 、 所 有 者 以 及 权限 信息 。 

FileSystem 的 getFileStatus() 方 法 用 于 获取 文件 或 目录 的 FileStatus 对 象 。 例 5-5 显 
示 了 它 的 用 法 。 

例 5-5 展示 文件 状态 信息 


public class ShowFileStatusTest { 
private MiniDFSCluitar cluster; 


private FileSystem fs; 

@ Before 

public void setUp() throws IOExcaption { 
Configuration conf=new Configuration (); 
if (System.getProperty ("test . build . data") ==null) 
System . setProperty ("test . burild .data ", "/tmp") ; 


cluster=new MiniDFSCluster (conf, 1. true. null); 
fs=cluster. getFileSystem(); 
OutputStream out= fs.Create (new Path ("/dir/file")); 
out .wril:e(" content " . getBytes (" UTF-8")) ; 
out .close(); 
ti 
@After 
public void tearDown() throws IOExcept:ion { 
if (fs !=null) { fs.close(); } 
if (cluster !=null) { cluster.shutdown(); } 
} 
@ Test (expected= FileNotFoundException.class) 
public void throwsFileNotFoundForNonExistentFile() throws IOExcept:ion{ 
fs.getFileStatus (new Path ("no- such- file")) 
} 
@Test 
public void fileStatusForFile() throws IOException { 
Path file=new Path ("/dir/file"); 
FileStatus stat=fs.getFileStatus (file); 
assertThat (stat.getPath() .touri() . get Path(), is ("/dir/file")) ; 
assertThat (stat .isDir(), is(false)); 
assertThat (stat.getLen(), is(7L)); 
assertThat (stat .getModificationTime() , 
is (lessThanOrEqualTo (System.currentTimeMillis()))); 
assertThat (stat . getReplication(). is ((short) 1)) ; 
assertThat{stat. getBlockSize(), is(64 * 1024 * 1024L)); 
assertThat (stat .getOwner(), is ("tom")) ; 
assertThat (stat .getGroup(), is (" supergroup")) ; 
assertThat (stat . get Pe rmission() .toString(), is ("rw-r--r--")); 
} 
@Test 
public void fileStatusForDirectory() throws IOExcept:ion { 
Path dir=new Path ("/dir") ; 
FileStatus stat=fs.getFileStatus (dir); 
assertThat (stat . getPath() .toUri() .getPath(), is("/dir")) ; 
assertThat (stat.isDir(). is(true)); 
assertThat (stat . getLen(). is(0L)); 
assert That (stat . getModificationTime() , 
is (lessThanOrEqualTo (System. currentTimeMillis())))z 
assertThat (stat . getReplication(), is((short) 0)); 
assertThat (stat .getBlockSize(), is(0L)); 
assert That (stat.getOwner(), is("tom")); 


assertThat (stat.getGroup(), is ("supergroup") ); 
assertThat (stat . getPermission() .toSt ring(), is (" rwxr-xr-x" )) ; 


} 


如 果 文 件 或 目录 均 不 存在 , 则 会 抛 出 FileNotFoundException 异常 。 但 是 ,如 果 只 需 检 
查 文件 或 目录 是 否 存在 ,那么 调用 exists() 方 法 会 更 方便 。 


Public boolean exists (Path f) throws IOException 


查找 一 个 文件 或 目录 的 信息 很 实用 ,但 通常 你 还 需要 能 够 列 出 目录 的 内 容 。 这 就 是 
FileSystem 的 listStatus() 方 法 的 功能 。 


public FileStatus[] listStatus (Path f) throws IOException 

public FileStatus[] listStatus (Path f, PathFilter filter) throws IOException 
public FileStatus[] listStatus(Path[] files) throws IOException 

public FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException 


当 传人 的 参数 是 一 个 文件 时 , 它 会 简单 转变 成 以 数组 方式 返回 长 度 为 1 的 FileStatus 
对 象 。 当 传人 参数 是 一 个 目录 时 , 则 返回 0 或 多 个 FileStatus 对 象 ,表示 此 目录 中 包含 的 文 
件 和 目录 。 

一 种 重 载 方法 是 允许 使 用 PathFilter 来 限制 匹配 的 文件 和 目录 ,如 果 指 定 一 组 路 径 ,其 
执行 结果 相当 于 依次 轮流 传递 每 条 路 径 并 对 其 调用 listStatus() 方 法 ,再 将 FileStatus 对 象 
数组 累积 存 人 同一 数组 中 ,但 该 方法 更 为 方便 。 当 从 文件 系统 树 的 不 同 分 支 构 建 输入 文件 
列表 时 ,这 是 很 有 用 的 。 例 5-6 简单 显示 了 这 种 方法 。 注 意 FileUtil 中 stat2Paths() 方 法 的 
使 用 , 它 将 一 个 FileStatus 对 象 数组 转换 为 Path 对 象 数组 。 

例 5-6 显示 Hadoop 文件 系统 中 一 组 路 径 的 文件 信息 。 


public class ListStatus { 
public static void main (String[] args) throws Exception { 
String uri=args[0]; 
Configuration conf=new Configuration () ; 
FileSystem fs=FileSystem.get (URI.create (uri), conf); 
Path[] paths=new Path[args. length]; 
for (int i=0; i <paths.length; i++) { 
paths [i]=new Path (args[i]); 
} 
FileStatus[] status=fs. listStatus (paths) ; 
Path[] listedPaths=FileUtil.stat2Paths (status); 
for (Path p: listedPaths) { 
System.out .println (p); 
} 


了 结果 如 下 : 


[zkpk@master ~] $| Dac op zs list.jar com.mr.ListStatus /tmp 
list. jar: Unknov 


[zkpk@naster ~]$ hadoop jar list.jar com.mr.ListStatus /tmp 
15/12/18 03:03:59 WARN util.NativeCodeLoader: Unable to load native-hadoop 1: 
ry for your platform... using builtin-java classes where applicable 


5.2.6 删除 数据 
使 用 FileSystem 的 delete() 方 法 可 以 永久 性 删除 文件 或 目录 。 
Public Boolean delete (Path f, Boolean recursive) throws IOException 


例 5-7 显示 了 这 种 方法 。 
例 5-7 删除 HDFS 上 的 文件 或 者 目录 。 


Public class DeleteFile{ 
Public static void main (String[] args) { 

String uri="hdfs://master:9000/ttt.txt"; 

Configuration conf=new Configuration () ; 

try{ 
FileSystem fs=FileSystem.get (URI.create (uri), conf) ; 
Path delef=new Path ("hdfs://master:9000/ttt.txt"); 
boolean isDeleted= fs.delete (delef, false) ; 
// 是 否 递归 删除 文件 夹 及 文件 夹 下 的 文件 
//boolean is Deleted= fs.delete (delef, true) ; 
System.out .println (isDeleted); 

}catch (IOException e) { 
e.printStackTrace () ; 

} 


} 
运行 结果 如 下 : 


[zkpk@master TD gr delete jar con mr.DeUeteTest J 
15/12/10 03:07:2. Uv e ad native-hadoop lit 


TESTTVECG fer: Un 
ry for your platform... using builtin-java classes where applicable 
[zkpk@master ~]$ hadoop fs -ls / 

15/12/10 03:07:39 WARN util.NativeCodeLoader: Unable to load native-hadoop lit 
ry for your platform... using builtin-java classes where applicable 


drwx----- ~ zkpk superaroup = 9 2015-09-23 02:39 tmo — 


如 果 上 是 一 个 文件 或 空 目 录 , 那 么 recurslve 的 值 就 会 被 忽略 。 只 有 在 recruslve 值 为 
true 时 ,一 个 非 空 目 录 及 其 内 容 才 会 被 删除 (否则 会 抛 出 IOException 异常 ) 。 


53 其 他 常用 接口 


HDFS 设计 的 主要 目的 是 对 海量 数据 进行 处 理 , 也 就 是 说 在 其 上 能 够 存储 大 量 文 件 ( 可 
以 存储 TB 级 的 文件 )。HDFS 将 这 些 文件 分 割 后 ,存储 在 不 同 的 DataNode 上 ,HDFS 不仅 
是 提供 了 Java 接口 对 HDFS 里 面 的 文件 进行 操作 ,还 提供 了 其 他 常用 的 接口 。 本 小 节 将 介 
绍 其 他 常用 的 HDFS 接口 。 


5.3.1 Thrift 


因为 Hadoop 文件 系统 的 接口 是 通过 Java API 提供 的 ,所 以 其 他 非 Java 应 用 程序 访问 
Hadoop 文件 系统 会 比较 麻烦 。thriftfs 定制 功能 模块 中 的 Thrift API 通过 把 Hadoop 文件 


系统 包装 一 个 Apache Thrift 服务 来 弥补 这 个 不 足 , 从 而 使 任何 具有 Thrift 绑 定 (binding) 
的 语言 都 能 轻松 地 与 Hadoop 文件 系统 (如 HDFS) 进 行 交互 。 

thrift 是 一 个 软件 框架 ,thrift 最 初 由 Facebook 开发 用 作 系 统 内 各 语言 之 间 的 RPC 通 
信 。2007 年 由 Facebook 贡献 到 Apache 基金 ,2008 年 5 月 进入 Apache 孵化 器 。 支 持 多 
种 语言 之 间 的 RPC 方式 的 通信 : php 语言 client 可 以 构造 一 个 对 象 ,调用 相应 的 服务 方法 
来 调用 java 语言 的 服务 ,跨越 语言 的 C/S RPC 调用 ,用 来 进行 可 扩展 且 跨 语言 的 服务 的 开 
发 。 它 结合 了 功能 强大 的 软件 堆栈 和 代码 生成 引擎 ,以 构建 在 C++ ,Java,Python,PHP， 
Ruby, Erlang, Perl, Haskell, C # ,Cocoa,JavaScript,Node. js,Smalltalk,and OCaml 这 些 编 
程 语言 间 无 缝 结合 的 、 高 效 的 服务 。 

thrift 允许 定义 一 个 简单 的 定义 文件 中 的 数据 类 型 和 服务 接口 ,以 作为 输入 文件 ,编译 
器 生成 代码 用 来 方便 地 生成 RPC 客户 端 和 服务 器 通信 的 无 缝 跨 编程 语言 。 为 了 使 用 
Thrift API, 需 要 运行 提供 Thrift 服务 的 Java 服务 器 ,并 以 代理 的 方式 访问 Hadoop 文件 系 
统 。 应 用 程序 访问 Thrift 服务 时 ,实际 上 两 者 是 运行 在 同一 台 机 器 上 的 。 


5.3.2 C 语 言 


Hadoop 提供 了 一 个 名 为 libhdfs 的 C 语言 库 , 该 语言 库 是 Java FileSystem 接口 类 的 一 
个 镜像 ( 它 被 编写 成 访问 HDFS 的 C 语言 库 , 但 它 其 实 可 以 访问 任意 Hadoop 文件 系统 ) 。 
它 可 以 使 用 Java 原生 接口 (Java Native Interface,JND 调 用 Java 文件 系统 客户 端 。 

C 语言 API 与 Java 的 API 非 常 相似 ,但 它 的 开发 一 般 滞后 于 Java API, 因 此 目前 一 些 
新 的 特性 可 能 还 不 支持 。Hadoop 中 有 预先 编译 好 的 32 位 Linux 的 libhdfs 二 进 制 编码 ,但 
对 于 其 他 平台 ,需要 按照 http://wiki，apache. org/hadoop/L ibHDFS 的 教程 自行 编译 。 
需要 注意 的 是 ,libhdfs 中 的 函数 是 通过 JNI 调用 Java 虚拟 机 (简称 JVM) ,在 虚拟 机 中 构造 
对 应 的 HDFS 的 Java 类 ,然后 反复 调用 该 类 的 功能 函数 。 总 会 发 生 JVM 和 程序 之 间 内 存 
复制 的 动作 ,因此 在 大 规模 使 用 时 需要 考虑 其 性 能 方面 的 问题 。 


5.3.3 HTTP 


HDFS 定义 了 一 个 以 HTTP HARR HRI KA Z H R ik., iA E 
NameNode 中 的 Web 服务 器 (运行 在 50070 端口 上 ) 以 XML 格式 提供 目录 列表 服务 TT He 
入 在 DataNode 的 Web 服务 器 (运行 在 50075 端口 ) 提 供 文件 数据 传输 服务 。 该 协议 并 不 绑 
定 于 某 个 特定 的 HDFS 版 本 ,由 此 用 户 可 以 利用 HTTP 协议 编写 从 运行 不 同 版 本 的 
Hadoop HDFS 集群 中 读 取 数据 的 客户 端 。HftpFileSystem 就 是 其 中 一 种 : 一 个 通过 
HTTP 协议 与 HDFS 交互 的 Hadoop 文件 系统 接口 (HsftpFileSystem 是 HTTPS 的 
变种 ) 。 


本 章 小 结 


HDFS 是 Hadoop 的 一 个 核心 子 项 目 ,是 Hadoop 进行 大 数据 存储 管理 的 基础 。 在 本 
章 中 ,深入 介绍 了 HDFS 的 基本 操作 接口 。 
(1) 介绍 了 HDFS 命令 行 接口 。 命 令 行 是 最 简单 的 ,同时 也 是 许多 开发 者 最 熟悉 的 ,我 


们 将 通过 命令 行 与 HDFS 交互 ,分 别 讲解 查看 文件 列表 、 创 建 目 录 、 上 传 和 下 载 文件 .查看 
文件 内 容 以 及 对 文件 数据 删除 的 命令 。 使 得 读者 不 仅 能 由 浅 入 深 地 学 好 HDFS 相关 的 命 
令 , 还 能 更 深入 地 了 解 HDFS。 

(2) 主要 讲 了 Java 接口 ,深入 探索 Hadoop 的 FileSystem 类 : 与 Hadoop 的 某 一 文件 
系统 进行 交互 的 API, 讲 解 了 通过 Java API 对 HDFS 中 的 文件 执行 常规 的 文件 操作 ,包括 
从 Hadoop URL 中 读 取 数据 和 通过 FileSystem API 中 读 取 数据 。 同 时 还 介绍 了 Java 接口 
中 写 人 数据 创建 目录 查询 文件 系统 以 及 数据 的 删除 。 

(3) 除了 命令 行 接口 和 Java 接口 ,还 介绍 了 其 他 常用 的 接口 。Thrift 定制 功能 模块 中 
的 Thrift API 通过 把 Hadoop 文件 系统 包装 一 个 Apache Thrift 服务 来 弥补 非 Java 应 用 程 
序 访问 Hadoop 文件 系统 会 比较 麻烦 的 不 足 ;C 语言 的 API 与 Java 的 API 非常 相似 ,但 它 
的 开发 一 般 沾 后 于 Java API, 因 此 目前 一 些 新 的 特性 可 能 还 不 支持 ;HTTP 是 HDFS 定义 
的 以 HTTP 方式 检索 目录 列表 和 数据 的 只 读 接 口 , 用 户 可 以 利用 HTTP 协议 编写 从 运行 
不 同 版 本 的 Hadoop HDFS 集群 中 读 取 数据 的 客户 端 。 


3 Æ 
1. 选择 题 
(1) HDFS 命令 行 接口 中 查看 文件 列表 中 第 五 列 是 ( Ji 
A. 所 属 用 户 B. 组 别 C. 文件 大 小 D. 时 间 
(2) HDFS 中 ,文件 的 访问 权限 不 包含 ( 入 
A. 只 读 权限 B. 写 入 权限 C. 执行 权限 D. 读 写 权 限 


(3) 每 个 文件 和 目录 都 有 所 属 用 户 (owner) 、 所 属 组 别 (group) 及 模式 (mode)。 这 个 模 
式 的 组 成 不 包含 ( de 


A. 所 属 用 户 的 权限 B. 组 内 成 员 的 权限 
C. 所 属 组 的 权限 D. 其 他 用 户 的 权限 
(A) FileStatus 类 封装 了 文件 系统 中 文件 和 目录 的 元 数据 ,其 中 不 包括 ( Yio 
A. 文件 长 度 B. 文件 大 小 C. 块 大 小 D. 备份 
2. 问答 题 


(1) 描述 得 到 FileSystem 接口 的 实例 的 静态 实例 。 

(2) 如 何 使 用 FSDataInputStream 读数 据 。 

(3) 因为 Hadoop 文件 系统 的 接口 是 通过 Java API 提供 的 ,所 以 其 他 非 Java 应 用 程序 
访问 Hadoop 文件 系统 会 比较 麻烦 。Thrift 是 如 何 避 免 这 类 问题 的 ? 


Hadoop I/O 详解 


本 章 提 要 


在 介绍 Hadoop 的 MapReduce 编程 之 前 , 先 介绍 一 下 Hadoop 45 1/0 知识 ,以 免 在 后 
面 的 章节 中 看 到 IntWritable, LongWritable, Text, NullWritable 等 概念 时 会 不 知 所 措 。 其 
实 ,IntWritable 就 是 其 他 语言 (如 Java, C+ ) 里 的 int 类 型 ,LongWritable 就 是 其 他 语言 里 
的 long. Text 类 似 String, NullWritable 就 是 Null。 学 习 其 他 编程 语言 之 前 ,必须 先 学 习 数 
据 类 型 。 因 此 ,在 学 习 Hadoop 的 MapReduce 编程 之 前 , 先 学 习 Hadoop #4 1/0 知识 。 

Hadoop 自 带 一 套 原子 操作 用 于 数据 I/O 操作。 其 中 有 一 些 技术 比 Hadoop 本 身 更 常 
用 ,如 数据 完整 性 保持 和 压缩 ,但 在 处 理 多 达 TB 级 的 数据 集 时 ,特别 值得 关注 。 其 他 一 些 
是 Hadoop 工具 和 API, 它 们 所 形成 的 构建 模块 可 用 于 开发 分 布 式 系统 ,比如 序列 化 操作 和 
磁盘 (on-disk) 数 据 结构 。 


61 数据 完整 性 


Hadoop 用 户 肯 定 都 希望 系统 在 存储 和 处 理 数据 的 时 候 ,数据 不 会 有 任何 损失 或 损坏 。 
尽管 磁盘 或 网 络 上 的 每 个 IO 操作 不 太 可 能 将 错误 引入 自己 正在 读 、 写 的 数据 中 ,但 是 如 
果 系 统 中 需要 处 理 的 数据 量 大 到 Hadoop 的 处 理 极限 时 ,数据 被 损坏 的 概率 还 是 很 高 的 。 

检测 数据 是 否 损坏 的 常用 方法 是 ,在 数据 第 一 次 引入 系统 时 计算 校 验 和 (checksum)， 
并 在 数据 通过 一 个 不 可 靠 的 通道 进行 传输 时 再 次 计算 校 验 和 ,这 样 就 能 发 现 数据 是 否 损 坏 。 
若 计算 所 得 的 新 校 验 和 与 原来 的 校 验 和 不 匹配 ,我 们 就 认为 数据 已 损坏 ,但 该 技术 并 不 能 修 
复数 据 一 一 它 只 能 检测 出 数据 错误 (这 正 是 不 使 用 低 端 硬件 的 原因 。 具 体 来 说 ,一 定 要 使 用 
ECC 内 存 )。 注 意 : 校 验 和 也 是 可 能 损坏 的 ,不 只 是 数据 ,但 由 于 校 验 和 比 数据 小 得 多 ,所 以 
损坏 的 可 能 性 非常 小 。 

比较 常用 的 错误 校 验 码 是 CRC-32 (循环 宛 余 校 验 ) ,任何 大 小 的 数据 输入 均 计算 得 到 
一 个 32 位 的 证 书 校 验 和 。 


6.1.1 HDFS 的 数据 完整 性 


HDFS 会 对 写 入 的 所 有 数据 计算 校 验 和 ,并 在 读 取 数 据 时 验证 校 验 和 。 要 注意 的 一 点 
是 ,HDFS 每 固定 长 度 就 会 计算 一 次 校 验 和 ,这 个 值 由 io. bytes. per. checksum 指定 ,默认 是 
512B( 字 节 )。 由 于 CRC-32 是 32 位 , 即 4B, 所 以 存储 校 验 和 的 额外 开销 低 于 1%。 


DataNode 负责 在 接收 到 数据 后 存储 该 数据 及 其 验证 校 验 和 。 它 在 收 到 客户 端的 数据 
或 复制 其 他 DataNode 的 数据 时 执行 这 个 操作 。 正 在 进行 写 操作 的 客户 端 将 数据 及 其 校 验 
和 发 送 到 由 一 系列 DataNode 组 成 的 管线 ( 详 见 4.1.4 小节 ) ,管线 中 最 后 一 个 DataNode 负 
责 验 证 校 验 和 ,如 果 DataNode 检测 到 错误 ,客户 端 便 会 收 到 一 个 ChecksumException 异 
常 , 它 是 IOException 异常 的 一 个 子 类 。 

客户 端 从 DataNode 读 取 数 据 的 时 候 也 会 验证 校 验 和 , 它 会 跟 DataNode 上 的 检验 和 进 
行 比较 。 每 个 DataNode 均 持久 保存 有 一 个 用 于 验证 的 记录 校 验 和 日 志 (persistent log of 
checksum verification) ,所 以 它 知道 每 个 数据 块 的 最 后 一 次 验证 时 间 。 客 户 端 验证 完 之 后 
会 告诉 DataNode,DataNode 由 此 更 新 日 志 。 保 存 这 些 统计 信息 对 于 检测 损坏 的 磁盘 很 有 
价值 。 

不 只 是 客户 端 在 读 取 数据 块 时 会 验证 校 验 和 ,每 个 DataNode 也 会 在 一 个 后 台 线 程 中 运行 
一 个 DataBlockScanner 进程 ,从 而 定期 验证 存储 在 这 个 DataNode 上 的 所 有 的 数据 块 。 因 为 除 
了 读 写 过 程 中 会 产生 数据 错误 以 外 ,硬件 本 身 也 会 产生 数据 错误 ,比如 说 位 衰减 (bit rot), 

若 客户 端 发 现 有 Block 坏 掉 了 ,该 如 何 来 恢复 这 个 损坏 的 Block 呢 ? 主要 有 以 下 几 步 。 

(1) 客户 端 在 读 取 Block 时 ,如 果 检 测 到 错误 ,首先 向 NameNode 报告 已 损坏 的 Block 
及 其 正在 尝试 读 操作 的 这 个 DataNode, 再 抛 出 ChecksumException 异常 。 

(2) NameNode 将 这 个 Block 副本 标记 为 已 损坏 ,这 样 NameNode 就 不 会 把 客户 端 指 
向 这 个 Block, 也 不 会 复制 这 个 Block 到 其 他 的 DataNode。 

(3) NameNode 会 把 一 个 好 的 Block 复制 到 另外 一 个 DataNode 上 ,如 此 一 来 ,Block 的 
副本 因子 (replication factor) 又 回 到 期 望 水 平 。 

(4) 最 后 ,NameNode 把 已 损坏 的 Block 副本 删除 。 

如 果 出 于 一 些 原因 ,在 操作 时 不 想 让 HDFS 检查 校 验 码 , 那 么 在 使 用 open() 方 法 读 取 
文件 之 前 ,将 false 值 传递 给 FileSystem 对 象 的 setVerifyChecksum() 方 法 即 可 。 如 果 在 命 
今 解 释 器 中 使 用 带 -get 选项 的 -ignoreCrc 命令 或 者 使 用 等 价 的 -copyToLocal 命令 ,也 可 以 
达到 相同 的 效果 。 若 有 一 个 已 损坏 的 文件 需要 检查 并 决定 如 何 处 理 ,这 个 特性 是 非常 有 用 
的 。 例 如 ,也许 你 希望 在 删除 该 文件 之 前 尝试 看 看 是 否 能 够 恢复 部 分 数据 。 


6.1.2 验证 数据 完整 性 


1. 客户 端 校 验 类 LocalFileSystem 

Hadoop 的 LocalFileSystem 执行 客户 端的 校 验 和 验证 。 使 用 LocalFileSystem 写 文件 
时 ,例如 写 人 一 个 名 为 filename 的 文件 ,文件 系统 客户 端 会 明确 地 在 包含 每 个 文件 块 校 验 
和 的 同一 个 目录 内 新 建 一 个 名 为 . filename. cre 的 隐藏 文件 。 校 验 文件 的 大 小 由 属性 
io. bytes. per. checksum 控制 ,默认 是 512B, 即 每 512B 就 生成 一 个 CRC-32 校 验 和 。 
. filename, crc 文 件 会 保存 io. bytes. per. checksum 的 信息 ,在 读 取 的 时 候 ,会 根据 此 文件 进 
行 校 验 。 如 果 检 测 到 错误 ,LocalFileSystem 将 会 抛 出 一 个 ChecksumException 异常 。 

校 验 和 的 计算 代价 是 相当 低 的 ,一 般 只 是 增加 少许 额外 的 读 / 写 文件 时 间 。 对 大 多 数 应 
用 来 说 ,付出 这 样 的 额外 开销 以 保证 数据 完整 性 是 可 以 接受 的 。 此 外 ,我 们 也 可 以 禁用 校 验 
和 计算 ,特别 是 在 底层 文件 系统 本 身 就 支持 校 验 和 的 时 候 。 在 这 种 情况 下 ,使 用 
RawLocalFileSystem 替代 LocalFileSystem。 要 想 在 一 个 应 用 中 实现 全 局 校 验 和 验证 , 需 将 


fs. file. impl 属性 设置 为 org. apache. hadoop. fs. RawLocalFileSystem ,进而 实现 对 文件 
URI 的 重新 映射 。 也 可 以 直接 新 建 一 个 RawLocalFileSystem 实例 。 如 果 用 户 想 针对 一 些 
读 操作 禁用 校 验 和 ,这 个 方案 非常 有 效 。 代 码 如 下 : 

Configuration conf=... 

Filesystem fs=new RawLocalFilesystem(); 

fs.initialize(null,conf) ; 

2. 校 验 和 文件 系统 ChecksumFileSystem 

事实 上, LocalFileSystem 是 通过 继承 ChecksumFileSystem 来 实现 校 验 的 工作 。 
ChecksumFileSystem 类 继承 自 FileSystem 类 , 它 的 一 般 用 法 如 下 : 

FileSystem rawFs=... 

FileSystem checksummedFs= new ChecksumFileSystem (rawFs) ; 

底层 文件 系统 称 为 “ 源 ”(raw) 文 件 系 统 , 可 以 使 用 ChecksumFileSystem 实例 的 
getRawFileSystem() 方 法 获取 它 。ChecksumFileSystem 类 还 有 其 他 一 些 与 校 验 和 有 关 的 
方法 ,比如 getChecksumFile() 可 以 获得 任意 一 个 文件 的 校 验 和 文件 路 径 。 

如 果 ChecksumFileSystem 类 在 读 取 文件 时 检测 到 错误 ,会 调用 自己 的 
reportChecksumFailure() 方 法 。 默 认 实现 为 空 方法 ,但 LocalFileSystem 类 会 将 这 个 出 错 
的 文件 及 校 验 和 移动 到 同一 存储 设备 上 一 个 名 为 bad_files 的 边际 文件 夹 (side directory) 
中 。 管 理 员 应 定期 检查 这 些 坏 文件 ,并 采取 相应 的 处 理 。 


62 文件 压缩 


文件 压缩 有 两 大 好 处 : 一 是 减少 存储 文件 所 需要 的 磁盘 空间 ;二 是 加 速 数据 在 网 络 和 
磁盘 上 的 传输 。 这 两 大 好 处 在 处 理 大 量 数据 时 相当 重要 ,所 以 我 们 值得 仔细 考虑 在 
Hadoop 中 如 何 使 用 压缩 ,以 及 使 用 哪 种 压缩 。 

6.2.1 Hadoop 支持 的 压缩 格式 


Hadoop 目前 支持 很 多 种 压缩 方式 ,它们 各 有 千秋 。 表 6-1 列 出 了 Hadoop 常见 的 几 种 
压缩 方法 。 


表 6-1 Hadoop 中 压缩 格式 总 结 


压缩 格式 I 具 算 法 文件 扩展 名 是 否 可 切 分 
DEFLATE 无 DEFLATE . deflate 否 
Gzip gzip DEFLATE .gz 否 
bzip2 bzip2 bzip2 .bz2 是 
LZO lzop LZO .lzo 否 
LZ4 无 LZ4 .lz4 否 
Snappy 无 Snappy - snappy 否 


所 有 压缩 算法 都 需要 权衡 空间 /时 间 : 压缩 和 解压 缩 哪 种 速度 更 快 , 其 代价 通常 是 只 能 
节省 少量 的 空间 。 表 6-1 列 出 的 所 有 压缩 工具 都 提供 9 个 不 同 的 选项 来 控制 压缩 时 必须 考 
虑 的 权衡 : 选项 一 1 为 优化 压缩 速度 ,一 9 为 优化 压缩 空间 。 例 如 ,下 述 命令 通过 最 快 的 压 
缩 方 法 创建 一 个 名 为 file. gz 的 压缩 文件 : 

gzip -1 file 

不 同 压缩 工具 有 不 同 的 压缩 特性 。gzip 是 一 个 通用 的 压缩 工具 ,在 空间 /时 间 性 能 的 权 
衡 中 ,居于 其 他 两 个 压缩 方法 之 间 。bzip2 的 压缩 能 力 强 于 gzip, 但 压缩 速度 更 慢 一 些 。 另 
一 方面 ,LZO、LZ4 和 Snappy 均 优化 压缩 速度 ,其 速度 比 gzip 快 一 个 数量 级 ,但 压缩 效率 稍 
逊 一 筹 。Snappy 和 LZ4 的 解压 缩 速 度 比 LZO 高 出 很 多 。 

K 6-1 中 的 “是 否 可 切 分 "列表 示 对 应 的 压缩 算法 是 否 支持 切 分 (splitable) ,也 就 是 说 ， 
是 否 可 以 搜索 数据 流 的 任意 位 置 并 进一步 往 下 读 取 数据 。 可 切 分 压缩 格式 尤其 适合 
MapReduce。 


6.2.2 压缩 -解压 缩 算法 codec 


codec 实现 了 一 种 压缩 -解压 缩 算 法 。 在 Hadoop 中 ,一 个 对 CompressionCodec 接口 实 
现代 表 一 个 codec。 例 如 ,GzipCodec 包装 了 gzip 的 压缩 和 解压 缩 算法 。 表 6-2 列举 了 
Hadoop 实现 的 codec。 


表 6-2 Hadoop 的 压缩 codec 


压缩 格式 HadoopCompressionCodec 
DEFLATE org. apache. hadoop. io. compress. DefaultCodec 
Gzip org. apache. hadoop. io. compress. GzipCodec 
bzip2 org. apache. hadoop. io. compress. Bzip2Codec 
LZO org. apache. compression. lzo. LzopCodec 

LZ4 org. apache. hadoop. io. compress. Lz4Codec 
Snappy org. apache. hadoop. io. compress. SnappyCodec 


LZO 格式 是 基于 GPL 许可 的 ,不 能 通过 Apache 来 分 发 许可 ,因此 ,Hadoop 的 codec 
必须 单独 下 载 , 地 址 是 http://codec. google. com/p/hadoop-gpl-compression/ 或 从 http:// 
github. com/kevinweil/hadoop-lzo 下 载 ,该 代码 库 包含 有 修正 的 软件 错误 及 其 他 一 些 工具 。 

Lzop 编码 器 和 解码 器 兼容 lzop 工具 , 它 其 实 就 是 LZO 格式 ,但 额外 还 有 头 部 , 它 正 是 
我 们 想 要 的 。 还 有 一 个 纯 LZO 格式 的 编码 /解码 器 LzoCodec, 它 使 用 lzo_deflate 作为 扩展 
名 (根据 DEFLATE 类 推 ,是 没有 头 部 的 gzip 格式 )。 

1. CompressionCodec 类 

CompressionCodec 是 对 流 进行 压缩 和 解压 缩 ,CompressionCodec 包含 两 个 函数 ,可 以 轻松 用 
于 压缩 和 解压 缩 数 据 。 如 果 想 对 写 入 输出 数据 流 的 数据 进行 压缩 ,可 以 使 用 createOutputStream 
(OutputStream out) 方 法 对 尚未 压缩 的 数据 新 建 一 个 CompressionOutputStream 对 象 ,将 其 以 压缩 
格式 写 信 底层 的 流 。 相 反 , 想 对 从 输入 流 读 取 的 数据 进行 解压 缩 , 则 调用 createInputStream 


(InputStream in) 函数 获得 一 个 CompressionInputStream ,进而 从 底层 的 流 读 取 解 压缩 后 的 
数据 。 

CompressionOutputStream 和 CompressionInputStream 类 ,类 似 于 Java 中 的 java. 
util. zip. DeflaterOutputStream 和 java. util. zip. DeflaterInput-Stream ,前 两 者 还 可 以 提供 
重 置 其 底层 压缩 和 解压 缩 的 功能 , 当 把 部 分 数据 流 (section of data stream) 压 缩 为 单独 数据 
块 时 ,此 功能 比较 重要 。 例 如 ,SequenceFile 文件 格式 。 

例 6-1 显示 了 如 何 用 API 来 压缩 从 标准 输入 中 读 取 的 数据 并 将 其 写 到 标准 输出 。 

例 6-1 该 程序 压缩 从 标准 输入 读 取 的 数据 ,然后 将 其 写 到 标准 输出 。 


public class StreamCompressor{ 
public static void main (String[] args) throws Exception{ 

String codecClassname=args[0]; 
Class<? > codecClass=Class.forName (codecClassname) ; 
Configuration conf= new Configuration () ; 
CompressionCodec codec= (CompressionCodec) 
ReflectionUtils.newInstance (codecClass, conf); 
CompressionOutputStream out= 
codec. createOutputStream (System.out) ; 
IOUtils.copyBytes (System.in, out, 4096, false); 
out. finish (); 


} 


此 应 用 需要 压缩 CompressionCodec 的 合法 全 名 来 作为 命令 行 的 第 一 个 参数 。 我 们 使 用 
ReflectionUtils 来 建立 一 个 新 的 实例 ,然后 获得 一 个 压缩 好 的 System. out。 之 后 ,对 IOUtils 
对 象 调用 copyBytes() 方 法 将 输入 数据 复制 到 输出 , 输出 由 CompressionOutputStream 对 
象 压缩 。 最 后 ,调用 CompressionOutputStream 的 finish() 方 法 ,要 求 压缩 方法 完成 到 压缩 
数据 流 的 写 操 作 , 但 不 关闭 这 个 数据 流 。 我们 可 以 用 下 面 这 行 命令 做 一 个 测试 ,通过 
GzipCodec 的 StreamCompressor 对 象 对 字符 串 Text 进行 压缩 ,然后 使 用 gunzip 从 标准 输 
入 中 对 它 进行 读 取 并 解压 缩 操 作 : 

%echo "Text"|hadoop StreamCompressor org.apache.hadoop.io. 

compress .GzipCodec \| gunzip 


Text 

2. CompressionCodecFactory 类 

用 CompressionCodecFactory 类 可 以 推断 CompressionCodecs 的 压缩 格式 。 在 读 取 一 
个 压缩 文件 时 ,通常 可 以 通过 文件 扩展 名 推断 需要 使 用 哪个 codec。 例 如 , 若 文件 以 . gz 结 
尾 , 则 可 以 用 GzipCodec 来 读 取 。 表 6-1 为 每 一 种 压缩 格式 列举 了 文件 扩展 名 。 

CompressionCodecFactory 提供 了 getCodec() 方 法 ,用 于 将 文件 扩展 名 映射 到 相应 的 
CompressionCodec, 此 方法 接受 一 个 Path WR. 

例 6-2 所 示 的 应 用 即 为 使 用 这 个 特性 来 对 文件 进行 解压 缩 。 

Bl 6-2 该 应 用 根据 文件 扩展 名 codec 解压 缩 文件 。 


public class FileDecompressor { 
public static void main (String[] args) throws Exception { 


String uri=args[0]; 
Configuration conf=new Configuration (); 
Filesystem fs=FileSystem.get (URI.create (uri), conf); 
Path inputPath=new Path (uri); 
CompressionCodecFactory factory=new 
CompressionCodecFactory (conf) ; 
CompressionCodec codec= factory.getCodec (inputPath) ; 
if (codec==null) { 
System.err.print1n ("No codec found for " +uri); 
System.exit (1); 
} 
String outputUri= 
CompressionCodecFactory. removeSuffix (uri, codec.getDefaultExtension ()) 
InputStream in=null; 
OutputStream out=null; 
try { 
in= codec.createInputStream (fs .open (inputPath) ); 
out= fs.create (new Path (outputUri) ) 7 
IoOUtils.copyBytes (in, out, conf); 
} finally { 
IoUtils.closeStream (in); 
TOUtils.closeStream (out) ; 
} 
} 
} 


一 旦 找到 对 应 的 codec. 就 会 被 用 来 去 掉 文件 扩展 名 形成 输出 文件 名 ,这 是 通过 
CompressionCodecFactory 对 象 的 静态 方法 removeSuffix() 来 实现 的 。 这 样 , 调 用 如 下 程序 
便 把 一 个 名 为 file. gz 的 文件 解压 缩 为 file 文件 。 


%hadoop FileDecompressor file.gz 


CompressionCodecFactory 从 io. compression. codecs 属性 (参见 表 6-3) 定 义 的 一 个 列 
表 中 找到 codec。 在 默认 情况 下 ,该 列表 列 出 了 Hadoop 提供 的 所 有 codec, 所 以 只 有 在 你 拥 
有 一 个 希望 注册 的 定制 codec( 例 如 ,外 部 管理 的 LZO codec) 时 才 需 要 加 以 修改 。 每 个 
codec 都 知道 自己 默认 的 文件 扩展 名 ,因此 CompressionCodecFactory 可 通过 搜索 注册 的 
codec 找到 匹配 指定 文件 扩展 名 的 codec( 如 果 有 ) 。 


表 6-3 压缩 codec 的 属性 


属性 名 称 类 型 默 认 值 功能 描述 


org. apache. hadoop. io. 
compress. DefaultCodec 


org. apache. hadoop. io. 用 于 压缩 /解压 缩 的 
compress. GzipCodec CompressionCodec 列表 


io. compression. codecs | 逗号 分 隔 的 类 名 


org. apache. hadoop. io. 


compress. Bzip2Codec 


3. 本 地 库 
考虑 到 性 能 ,最 好 使 用 本 地 库 (native library) 来 压缩 和 解压 。 例 如 ,在 一 个 测试 中 ,使 


用 本 地 gizp 类 库 可 以 减少 约 一 半 的 解压 缩 时 间 和 约 10% 的 压缩 时 间 ( 与 内 置 的 Java 实现 
HH). X 6-4 给 出 了 每 种 压缩 格式 的 Java 实现 和 原生 类 库 实现 。 并 非 所 有 格式 都 有 本 地 
实现 (如 bzip2 压缩 ) ,而 另 一 些 则 仅 有 本 地 实现 (如 LZO)。 


表 6-4 本 地 库 
压缩 格式 BBA Java 实现 是 否 有 本 地 实现 
DEFLATE 是 是 
Gzip 是 是 
bzip2 是 F 
LZO 5 是 
LZ4 否 是 
Snappy F 是 


Hadoop 带 有 预 置 的 32 位 和 64 位 Linux 构建 的 压缩 代码 库 ( 位 于 lib/native 目录 )。 
对 于 其 他 平台 ,需要 自己 编译 库 ,具体 请 参见 Hadoop 的 维基 百科 http: //wiki. apache. org/ 
hadoop/NativeHadoop. 

本 地 库 通 过 Java 系统 属性 java. library. path 来 使 用 。Hadoop 的 脚本 在 bin 目录 中 已 
经 设置 好 这 个 属性 ,但 如 果 不 使 用 该 脚本 , 则 需要 在 应 用 中 设置 属性 。 

默认 情况 下 , Hadoop 会 根据 自身 运行 的 平台 搜索 本 地 库 , 如 果 找 到 相应 的 代码 库 就 会 
自动 加 载 。 这 意味 着 ,你 无 须 更 改 任 何 配置 就 可 以 使 用 本 地 库 。 但 是 ,在 某 些 情况 下 ,可 能 
希望 禁用 本 地 库 , 例 如 在 调试 压缩 相关 问题 的 时 候 。 为 此 ,将 属性 hadoop. native. lib 设置 
为 false, 即 可 确保 内 置 的 Java 库 被 使 用 。 

4, CodecPool 

如 果 使 用 的 是 本 地 库 并 且 需 要 在 应 用 中 执行 大 量 压 缩 和 解压 缩 操作 ,可 以 考虑 使 用 
CodecPool, 它 支持 反复 使 用 压缩 和 解压 缩 ,以 分 摊 创 建 这 些 对 象 的 开销 。 

例 6-3 中 的 代码 显示 了 API 函数 ,但 在 此 程序 中 , 它 只 新 建 了 一 个 Compressor. Jf Ai 
要 使 用 压缩 /解压 缩 池 。 

例 6-3 使 用 压缩 池 对 读 取 自 标准 输入 的 数据 进行 压缩 ,然后 将 其 写 到 标准 输出 。 


Public class PooledStreamCompressor { 
public static void main (String[] args) throws Exception { 

String codecClassName=args[0]; 

Class<? >codecClass= Class.forName (codecClassName) ; 

Configuration conf=new Configuration (); 

CompressionCodec codec= (CompressionCodec) ReflectionUtils. newInstance (codecClass, 

conf); 

Compressor compressor= null; 

try { 
compressor= CodecPool .getCompressor (codec) ; 
CompressionOutputStream out=codec.createOutputStream(System.out, compressor) ; 
IOUtils.copyBytes (System.in, out, 4096, false); 


out. finish (); 


} finally { 
CodecPool.returnCompressor (compressor) ; 
1 


} 


在 codec 的 重 载 方法 createOutputStream() 中 ,对 指定 的 CompressionCodec, 从 池 中 获 
取 一 个 Compressor 实例 。 通 过 使 用 finally 数据 块 ,用 户 在 不 同 的 数据 流 之 间 来 回复 制 数 
据 , 即 使 出 现 IOException 异常 ,也 可 以 确保 compressor 返回 池 中 。 


6.2.3 压缩 和 输入 分 片 


在 考虑 如 何 压 缩 由 MapReduce 处 理 的 数据 时 ,理解 这 些 压缩 格式 是 否 支 持 切 分 
Csplitting) 是 非常 重要 的 。 以 一 个 存储 在 HDFS 文件 系统 中 且 压 缩 前 大 小 为 1GB 的 文件 
为 例 。 如 果 HDFS 的 块 大 小 设置 为 64MB, 那 么 该 文件 将 被 存储 在 16 个 块 中 ,把 这 个 文件 
作为 输入 数据 MapReduce 作业 ,将 创建 16 个 数据 块 , 其 中 每 个 数据 块 作为 一 个 map 任务 
的 输入 。 

现在 ,经 过 gzip 压缩 后 ,文件 大 小 为 1GB。 与 以 前 一 样 , HDFS 将 这 个 文件 保存 为 
16 个 数据 块 。 但 是 ,将 每 个 数据 块 单独 作为 一 个 输入 分 片 是 无 法 实现 工作 的 ,因为 无 法 实 
现 从 gzip 压缩 数据 流 的 任意 位 置 读 取 数 据 , 所 以 让 map 任务 独立 于 其 他 任务 进行 数据 读 取 
是 行 不 通 的 。gzip 格式 使 用 DEFLATE 算法 来 存储 压缩 后 的 数据 ,而 DEFLATE 算法 将 数 
据 存储 在 一 系列 连续 的 压缩 块 中 。 问 题 在 于 ,从 每 个 块 的 起 始 位 置 进行 读 取 与 从 数据 流 的 
任意 位 置 开 始 读 取 时 一 致 ,并 接着 往 后 读 取 下 一 个 数据 块 , 因 此 需要 与 整个 数据 流 进 行 同 
步 。 由 于 上 述 原 因 ,gzip 并 不 支持 文件 切片 。 

在 这 种 情况 下 ,MapReduce 会 采用 正确 的 方法 , 它 不 会 去 尝试 切 分 gzip 压缩 文件 ,因为 它 
知道 输入 是 gzip 压缩 文件 (通过 文件 扩展 名 看 出 ), 且 gzip 不 支持 切 分 。 这 是 可 行 的 ,但 牺牲 
了 数据 的 本 地 性 : 一 个 map 任务 处 理 16 个 HDFS 块 ,而 其 中 大 多 数 块 并 没有 存储 在 执行 该 
map 任务 的 节点 。 而 且 ,map 任务 数 越 少 ,作业 的 粒度 就 越 大 ,因而 运行 时 间 可 能 会 更 长 。 

如 果 文 件 是 通过 LZO 压缩 的 ,我 们 会 面临 相同 的 问题 ,因为 这 个 压缩 格式 也 不 支持 数 
据 读 取 和 数据 流 同 步 。 但 是 ,在 预 处 理 LZO 文件 时 使 用 包含 在 Hadoop LZO 库 文件 中 的 索 
引 工具 是 可 能 的 ,可 以 从 6. 2.2 节 所 列 出 的 网 站 上 获得 该 类 库 。 该 工具 创建 了 切 分 点 索引 ， 
如 果 使 用 恰当 的 MapReduce 输入 格式 可 有 效 实现 文件 的 可 切 分 特性 。 

另 一 方面 ,bzip2 文件 提供 不 同 数据 块 之 间 的 同步 标识 (pi 的 48 位 近似 值 ) ,因而 它 是 支 
持 切 分 的 。 可 以 参见 表 6-1, 了 解 每 个 压缩 格式 是 否 支 持 切 分 。 


Ci RAR 
应 该 使 用 哪 种 压缩 格式 ? 


Hadoop 应 用 处 理 的 数据 集 非常 大 ,因此 需要 借助 于 压缩 。 使 用 哪 种 压缩 格式 与 待 
处 理 的 文件 的 大 小 、 格 式 和 所 使 用 的 工具 相关 。 下 面 有 一 些 建议 ,大 致 是 按照 效率 从 高 
到 低 排列 的 。 


(1) 使 用 容器 文件 格式 ,如 顺序 文件 .RCFile 或 者 Avro 数据 文件 所 有 这 些 文件 格 
式 同时 支持 压缩 和 切 分 。 通 常 最 好 与 一 个 快速 压缩 工具 联合 使 用 ,如 LZO,LZ4 或 者 
Snappy。 

(2) 使 用 支持 切 分 的 压缩 格式 ,如 bzip2( 尽 管 bzip2 非常 慢 )。 或 者 使 用 通过 索引 实 
现 切 分 的 压缩 格式 ,如 LZO。 

(3) 在 应 用 中 将 文件 切 分 成 块 ,并 使 用 任意 一 种 压缩 格式 为 每 个 数据 块 建立 压缩 文 
件 (不 论 它 是 否 支持 切 分 )。 这 种 情况 下 ,需要 合理 选择 数据 块 的 大 小 ,以 确保 压缩 后 数 
据 块 的 大 小 近似 于 HDFS 块 的 大 小 。 

(4) 存储 未 经 压缩 的 文件 。 对 大 文件 来 说 ,不 要 使 用 不 支持 切 分 整个 文件 的 压缩 格 
式 , 因 为 会 失去 数据 的 本 地 特性 ,进而 造成 MapReduce 应 用 效率 低下 。 


6.3 文件 序列 化 


序列 化 和 反 序 列 化 在 分 布 式 数据 处 理 中 ,主要 应 用 于 进程 间 通 行 和 永久 存储 两 个 领域 。 

序列 化 (Cserialization) 是 指 将 机 构 化 对 象 转 化 为 字 节 流 ,以 便 在 网 络 上 传输 或 写 到 磁盘 
进行 永久 存储 的 过 程 。 

反 序 列 化 (deserialization) 是 指 将 字 节 流转 回 结构 化 对 象 的 逆 过 程 。 

在 Hadoop 系统 中 ,系统 中 多 个 节点 上 的 进程 间 通 信和 是 通过 “远程 过 程 调用 ”(Remote 
Procedure Call, RPC) 实 现 的 。RPC 协议 将 消息 序列 化 转化 为 二 进 制 流 后 发 送 到 远程 节点 ， 
远程 节点 接着 将 二 进 制 流 反 序列 化 为 消息 ,所 以 RPC 对 于 序列 化 有 以 下 要 求 ( 也 就 是 进程 
间 通 信 对 于 序列 化 的 要 求 ) 。 

(1) 紧凑 。 紧 凑 的 格式 可 以 提高 传输 效率 ,充分 利用 网 络 带 宽 , 要 知道 网 络 带宽 是 数据 
中 心 的 一 种 非常 重要 的 资源 。 

(2) 快速 。 进 程 间 通信 是 分 布 式 系统 的 重要 内 容 , 所 以 必须 减少 序列 化 和 反 序 列 化 的 
开销 ,这 样 可 以 提高 整个 分 布 式 系统 的 性 能 。 

(3) 可 扩展 。 通 信 协 议 为 了 满足 一 些 新 的 要 求 , 例 如 在 方法 调用 的 过 程 中 增加 新 的 参 
数 ,或 者 新 的 服务 器 系统 要 能 够 接受 老 客户 端 旧 格 式 的 消息 ,这 样 就 需要 直接 引进 新 的 协 
议 ,序列 化 必须 满足 可 扩展 的 要 求 。 

(4) 互 操作 。 对 于 某 些 系 统 来 说 ,希望 能 支持 以 不 同 语言 写 的 客户 端 (如 C++ Java, 
Python 等 ) 与 服务 器 交互 ,所 以 需要 设计 一 种 特定 的 格式 来 满足 这 一 需求 。 

表面 看 来 ,序列 化 框架 对 选择 用 于 数据 持久 存储 的 数据 格式 应 该 会 有 不 同 的 要 求 。 
毕竟 ,RPC 的 存活 时 间 不 到 1s, 永 久 存储 的 数据 却 可 能 在 写 到 磁盘 若干 年 后 才 会 被 读 取 。 
这 么 看 来 ,对 数据 永久 存储 而 言 ,RPC 序列 化 格式 的 四 大 理想 属性 非常 重要 。 用 户 和 希望 
存储 格式 比较 紧凑 (进而 高 效 使 用 存储 空间 ) .快速 ( 读 / 写 数据 的 额外 开销 比较 小 )、 可 扩 
展 ( 可 以 透明 地 读 取 老 格 式 的 数据 ) 且 可 以 互 操作 (可 以 使 用 不 同 的 语言 读 / 写 永久 存储 
的 数据 ) 。 

Hadoop 使 用 的 是 自己 的 序列 化 格式 Writable, 它 绝对 紧凑 、 速 度 快 ,但 不 太 容 易 用 Java 


以 外 的 语言 进行 扩展 或 使 用 。 因 为 Writable 是 Hadoop 的 核心 (大 多 数 MapReduce 程序 都 会 
为 键 和 值 使 用 它 ) ,所 以 在 接 下 来 ,要 对 其 进行 深入 的 探讨 ,然后 再 从 总 体 上 看 看 序列 化 框架 。 


6.3.1 Writable 接口 


在 Hadoop 中 ,Writable 接口 定义 了 两 个 方法 : 一 个 用 于 将 其 状态 写 入 二 进 制 格式 的 


DataOutput 流 ; 男 一 个 用 于 从 二 进 制 格式 的 DataInput 流 读 取 其 状态 。Writable 接口 如 下 。 


packageorg.apache.hadoop.io; 


importjava.io.DataOutput; 
importjava.io.DataInput; 
importjava.io. IOException; 


publicinterfaceWritable { 
voidwrite (DataOutput out) throwsIOException; 
voidreadFields (DataInput in) throwsIOException; 
} 


下 面 通过 一 个 特殊 的 Writable 类 IntWritable 封装 Java int 类 型 ,来 看 看 它 的 具体 用 
新 建 一 个 对 象 ,并 使 用 set() 方 法 来 设置 它 的 值 : 


IntWritable writable=newIntWritable(); 
writable.set (163) ; 


类 似 地 ,也 可 以 使 用 构造 函数 来 赋值 : 
IntWritable writable=newIntWritable (163) ; 


为 了 检查 IntWritable 的 序列 化 形式 , 写 一 个 小 的 辅助 方法 , 它 把 一 个 java. io. 


ByteArrayOutputStream 封装 到 java. io, DataOutputStream 中 (java. io, DataOutput 的 一 个 
实现 ) ,以 此 来 捕获 序列 化 的 数据 流 中 的 字 节 ,实现 代码 如 下 。 


Publicstaticbyte[] serialize (Writable writable)throwsIOException { 
ByteArrayOutputStream out= newByteArrayOutputStream() ; 
DataOutputStream dataOut= newDataOutputStream (out) ; 
writable.write (dataOut) ; 
dataOut.close () 
returnout.toByteArray (); 

} 


一 个 整数 占用 4B( 因 为 我 们 使 用 JUnit4 进行 声明 ) ,实现 代码 如 下 。 


byte[] bytes=serialize (writable) ; 
assertThat (bytes.length, is(4)); 


每 个 字 节 使 用 大 端 顺序 写 人 (所 以 ,最 重要 的 字 节 写 在 数据 流 的 开始 处 ,这 是 由 java. io. 


DataOutput 接口 规定 的 ) ,可 以 使 用 Hadoop 的 StringUtils 方法 看 到 它们 的 十 六 进 制 表示 ， 
实现 代码 如 下 。 


assertThat (StringUtils.byteToHexString (bytes) , is ("000000a3") ) ; 


再 来 试 试 反 序列 化 。 创 建 一 个 帮助 方法 来 从 一 个 字 节 数组 读 取 一 个 Writable 对 象 , 实 
现代 码 如 下 。 


publicstaticbyte[] deserialize (Writable writable,byte[] bytes)throwsIOException { 
ByteArrayInputStream in=newByteArrayInputStream (bytes) ; 
DataInputStream dataIn=newDataInputStream (in) ; 
writable.readFields (dataIn) ; 
dataIn.close(); 
returnbytes; 
t 
构造 一 个 新 的 、 缺 值 的 IntWritable, 然 后 调用 deserialize() 方 法 来 读 取 刚 写 入 的 输出 
流 。 最 后 发 现 它 的 值 ( 使 用 get 方法 检索 得 到 ) 还 是 原来 的 值 163 ,实现 代码 如 下 。 
IntWritable newWritable=newIntWritable (); 


deserialize (newWritable, bytes); 
assertThat (newWritable.get (), is(163)); 


6.3.2  WritableComparable 接口 


IntWritable 实现 原始 的 WritableComparable 接口 ,该 接口 继承 自 Writable 和 java. 
lang. Comparable 接口 。WritableComparable 的 接口 声明 如 下 所 示 。 

packageorg.apache .hadoop.io; 

publicinterfaceWritableComparable< t>extendsWritable, Comparable< T> {} 

类 型 的 比较 对 MapReduce 而 言 至 关 重 要 , 键 和 键 之 间 的 比较 在 排序 阶段 完成 。 
Hadoop 提供 的 一 个 优化 方法 是 从 Java Comparator 接口 的 RawComparator 扩展 而 
来 的 。 


packageorg.apache .hadoop.io; 

importjava.util.Comparator; 

publicinterfaceRawComparator< t> extendsComparator< t> { 

publicintcompare (byte[] bl, ints1,intll,byte[] b2,ints2,int12) ;} 

RawComparator 接口 允许 执行 者 比较 从 流 中 读 取 的 未 被 反 序列 化 为 对 象 的 记录 ,从 而 
省 去 了 创建 对 象 的 所 有 开销 。 例 如 ,IntWritable 的 comparator 使 用 原始 的 compare() 方 法 
从 每 个 字 节 数组 的 指定 开始 位 置 (S1 和 S2) 和 长 度 (Ll 和 L2) 读 取 整 数 bl 和 b2, 然 后 直接 
进行 比较 。 

WritableComparator 是 RawComparator 对 WritableComparable 类 的 一 个 通用 实现 。 
它 提 供 以 下 两 个 主要 功能 。 

(1) 它 提供 了 一 个 默认 的 对 原始 compare() 函数 的 调用 ,对 从 数据 流 要 比较 的 对 象 进 
行 反 序列 化 ,然后 调用 对 象 的 compare() 方 法 。 

(2) 它 充当 的 是 RawComparator 实例 的 一 个 工厂 方法 (Writable 方法 已 经 注册 ) 。 例 
如 ,获得 IntWritable 的 comparator, 代 码 如 下 。 


RawComparator< intwritable> comparator=WritableComparator.get (IntWritable.class) ; 


Comparator 是 对 象 比较 器 ,方法 compare( Object ol, Object 02) 返 回 一 个 基本 类 型 的 
整 型 ,返回 负数 表示 ol 和 o2 相等 ,返回 正 数 表示 ol 大 于 o2。 下 面 以 两 个 IntWritable 类 型 
为 例 , 来 比较 它们 的 大 小 ,代码 如 下 。 

IntWritable wl=newIntWritable (163) ; 


IntWritable w2=newIntWritable (67); 
assertThat (comparator .compare (wl, w2), greaterThan (0)); 


wl 和 w2 的 序列 化 比较 大 小 如 下 。 


byte[] bl=serialize (wl); 
byte[] b2= serialize (w2); 
assertThat (comparator .compare (bl, 0, bl.length, b2, 0, b2.length), greaterThan (0) ); 


6.3.3 Writable 实现 类 


Hadoop 中 ,并 没有 使 用 Java 自 带 的 基本 类 型 类 (Integer、Float 等 ) ,而 是 使 用 自己 开发 
的 类 , 包括 IntWritable、FloatWritable、BooleanWritable、LongWritable、ByteWritable、 
BytesWritable,DoubleWritable. 

1. Writable 类 的 层次 结构 

Writable 接口 是 一 个 序列 化 对 象 的 接口 ,能 够 将 数据 写 入 流 或 者 从 流 中 读 出 。 实 现 之 
后 ,能 够 进行 特定 类 型 数据 的 异地 传输 。 

Writable 类 的 层次 结构 如 图 6-1 所 示 , 它 们 都 实现 了 Writable Comparable 接口 。 除 了 
这 些 基本 类 型 的 定义 ,还 添加 了 VLongWritable 和 VIntWritable, V 指 的 是 可 变 长 度 。 例 
如 ,long 型 的 1 实际 只 需要 一 个 字 节 的 空间 ,但 由 于 是 long 型 的 ,所 以 会 占用 8 字 节 的 空 
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图 6-1 Hadoop 自 带 Writable 类 层次 结构 


间 ; 而 VLongWritable 中 ,会 根据 数值 的 大 小 分 配 适 当 的 空间 ( 仅 分 配 一 个 字 节 ) ,以 节省 空 
间 。 在 基本 数据 类 型 的 Writable 类 中 , readFields (DataInput in) 方法 是 直接 调用 
in, readLong() (以 LongWritable 为 例 ), 而 在 VLongWritable 与 VIntegerWritable 中 ， 
readFields(DataInputin) 方 法 是 使 用 了 静态 类 WritableUtils 中 的 readVLong(Datalnputin) 
方法 。WritableUtils 是 一 个 工具 类 ,用 于 提供 1/0 中 的 Writable 类 的 一 些 静态 方法 。 

表 6-5 展示 Java 基本 类 型 和 Writable 的 对 应 关系 。 


表 6-5 Java 基本 类 型 的 Writable 类 


Java 基本 类 型 Writable 实现 序列 化 大 小 ( 字 节 ) 
boolean BooleanWritable 1 
byte ByteWritable 1 
short ShortWritable 2 

IntWritable 4 
int 
VintWritable 1 一 5 
float FloatWritable 4 
LongWritable 8 
long 
VlongWritable 1 一 9 
double DoubleWritable 8 
2. Text 类 型 


Text 是 针对 UTF-8 序列 的 Writable 类 。 一 般 可 以 认为 它 等 价 于 java. lang. String 的 
Writable。Text 替代 了 UTF-8 类 。 但 这 并 不 是 一 个 很 好 的 替代 ,一 是 因为 不 支持 对 字 节 数 
超过 32767 的 字符 串 进 行 编码 ;二 是 因为 它 使 用 的 是 Java 的 UTF-8 修订 版 。 

Text 类 型 使 用 变 长 int 型 存储 长 度 , 所 以 Text 类 型 的 最 大 存储 为 2GB。 另 外 ,Text 采 
用 标准 的 UTF-8 编码 ,所 以 与 其 他 文本 工具 可 以 非常 好 的 交互 。 

1) 索引 

由 于 着 重 使 用 标准 的 UTF-8 编码 ,因此 Text 类 和 Java String 类 之 间 存 在 一 定 的 差 
别 。 对 Text 类 的 索引 是 根据 编码 后 字 节 序列 中 的 位 置 实现 的 ,并 非 字符 串 中 的 Unicode 
字符 ,也 不 是 Java char 的 编码 单元 (如 String)。 对 于 ASCII 字符 串 , 这 三 个 索引 位 置 的 概 
念 是 一 致 的 。charAt() 方 法 的 用 法 如 下 所 示 : 

Text t=new Text ("hadoop") ; 

assertThat (t.getLength(), is(6)); 

assertThat (t.getBytes().length, is (6)); 

assertThat (t.charAt (2) ,is((int) 'd')); 

assertThat ("Out of bounds", t.charAt (100) ,is(-1)); 

注意 ,charAt() 方 法 返回 的 是 一 个 表示 Unicode 编码 位 置 的 int 类 型 值 ,而 String 返回 
一 个 char 类 型 值 。Text 还 有 一 个 find() 方 法 ,该 方法 类 似 于 String 的 indexOf() 方 法 : 


Text t=new Text ("hadoop") ; 


assertThat ("find a substring", t.find ("do") ,is(2)); 
assertThat ("Find first 'o'™,t.find("o"),is(3)); 

assertThat ("Find 'o' from position 4 or later",t.find("o",4) ,is(4)); 
assertThat ("No match",t.find("pig"),is(-1)); 


2) Unicode 

一 旦 使 用 需要 多 个 字 节 来 编码 的 字符 时 ,Text 和 String 之 间 的 区 别 就 十 分 明显 了 。 因 
为 String 是 按照 Unicode 的 char 计算 ,而 Text 是 按照 字 节 计算 。 

例 6-4 是 验证 String 和 Text 的 差异 性 的 测试 ,这 个 测试 可 证 实 String 的 长 度 是 其 所 含 
char 编码 单元 个 数 (5 ,由 该 字符 串 的 前 三 个 字符 和 最 后 的 一 个 代理 对 组 成 ) ,但 Text 对 象 
的 长 度 却 是 其 UTF-8 编码 的 字 节 数 (10 二 1 十 2 十 3 十 4)。 相 似 的 ,String 类 的 indexOf() 方 
法 返回 char 编码 单元 中 的 索引 位 置 ,Text 类 的 find() 方 法 则 返回 字 节 偏 移 量 。 

当代 理 对 不 能 代表 整个 Unicode 字符 时 ,String 类 中 的 charAt() 方 法 会 根据 指定 的 索 
引 位置 返 回 char 编码 单元 。 根 据 char 编码 单元 索引 位 置 ,需要 codePointAt( ) 方 法 来 获取 
表示 成 int 类 型 的 单个 Unicode 字符 。 事 实 上 ,Text 类 中 的 charAt() 方 法 与 String 中 的 
codePointAt() 更 加 相似 ( 相 较 名 称 而 言 ) 。 唯 一 的 区 别 是 通过 字 节 的 偏 移 量 进行 索引 。 

例 6-4 验证 String 和 Text 的 差异 性 的 测试 。 


public class StringTextComparisonTest { 
@Test 
public void string() throws UnsupportedEncodingException { 
String s="\u0041\u00DF\u6771\uD801\uDCc00"; 
assertThat (s.length(), is (5)); 
assertThat (s.getBytes ("UTF- 8") .length, is(10)); 


assertThat (s.indexOf ("\u0041"), is(0)); 
assertThat (s.indexOf ("\u00DE"), is(1)); 
assertThat (s.indexOf ("\u6771"), is(2)); 
assertThat (s.indexOf ("\uD801\uDC00"), is (3) ) 7 


assertThat (s.charAt (0), is('\u0041')); 
assertThat (s.charAt (1), is ('\u00DF')); 
assertThat (s.charAt (2), is("\u6771")); 
assertThat (s.charAt (3), is ('\uD801')); 
assertThat (s.charAt (4), is("\uDC00"')); 


assertThat (s.codePointAt (0), is (0x0041)); 
assertThat (s.codePointAt (1), is (0x00DF)); 
assertThat (s.codePointAt (2), is (0x6771)); 
assertThat (s.codePointAt (3), is(0x10400)); 
} 
@ Test 
public void text () { 
Text t=new Text ("\u0041\u00DF\u6771\uD801\uDC00") ; 
assertThat (t.getLength(), is(10)); 
assertThat (t.find("\u0041"), is(0)); 
assertThat (t.find("\u00DE"), is (1)); 
assertThat (t.find("\u6771"), is (3)); 


assertThat (t.find("\uD801\uDc00"), is(6)); 


assertThat (t.charAt (0), is (0x0041)); 
assertThat (t.charAt (1), is (0x00DF)); 
assertThat (t.charAt (3), is (Ox6771) ) 
assertThat (t.charAt (6), is (0x10400)); 


} 
3) 和 迭代 
利用 字 节 偏 移 量 实现 的 位 置 索引 ,对 Text 类 中 的 Unicode 字符 进行 迭代 是 非常 复 
杂 的 ,因为 不 能 简单 的 通过 增加 位 置 的 索引 值 来 实现 。 同 时 迭代 的 语法 有 些 模 糊 ( 参 见 
例 6-5): 先 将 Text 对 象 转化 为 java. nio. ByteBuffer 对 象 ,然后 利用 缓冲 区 对 Text 对 象 反复 调 
用 bytesToCodePoint () 静 态 方法 ,该 方法 能 获取 下 一 代码 的 位 置 ,并 返回 相应 的 int 值 , 最 后 更 
新 缓冲 区 中 的 位 置 。 当 bytesToCodePoint () 返 回 一 1 时 , 则 检测 到 字符 串 的 末尾 。 
Bl 6-5 遍历 Text 对 象 中 的 字符 。 
Public class TextIterator { 
public static void main(String[] arg) { 
Text t=new Text ("\u0041\u00DF\u6771\uD801\uDC00") ; 
ByteBuffer buf=ByteBuffer.wrap (t.getBytes () ,0,t.getLength ()); 
int cp; 
while (buf .hasRemaining () && (cp= Text .bytesToCodePoint (buf) ) !=- 1) { 
System.out .Println (Integer.toHexString (cp) ); 
ih 


} 
} 


运行 这 个 程序 ,打印 出 字符 串 中 四 个 字符 的 编码 点 (code point) : 


41 

df 
6771 
10400 


4) 可 变性 

与 String 相 比 ,Text 的 另 一 个 区 别 在 于 它 是 可 变 的 (与 所 有 Hadoop 的 Writable 接口 
实现 相似 ,NullWritable 除外 , 它 是 单 实例 对 象 )。 可 以 通过 调用 其 中 一 个 set() 方 法 来 重用 
Text 实例 。 例 如 

Text t=new Text ("hadoop") ; 

t.set (new Text ("pig") ) 7 

assertThat (t.getLength () ,is (3)); 

assertThat (t.getBytes () .length, is (3)); 

5) 对 String 重新 排序 

Text 类 并 不 像 java. lang. String 类 那样 有 丰富 的 字符 串 操作 API。 所 以 ,在 多 数 情况 
下 需要 将 Text 对 象 转换 成 String 对 象 。 这 一 转换 通常 调用 toString() 方 法 来 实现 : 


assertThat (new Text ("hadoop") .toString (),is ("hadoop") ); 


3. BytesWritable 

BytesWritable 是 对 二 进 制 数据 数组 的 封装 。 它 的 序列 化 格式 为 一 个 指定 所 含 数据 字 
节 数 的 整数 域 (4B) ,后 跟 数据 内 容 本 身 。 例 如 ,长 度 为 2 的 字 节 数组 包含 数值 3 和 5 ,序列 
化 形式 为 一 个 4B 的 整数 (00000002) 和 该 数组 中 的 两 个 字 节 (03 和 05) 。 

BytesWritable b=new BytesWritable (new byte[]{3,5}); 

byte[] bytes=serialize(b); 

assertThat (StringUtils.byteToHexString (bytes) , is ("000000020305") ) ; 

BytesWritable 是 可 变 的 ,其 值 可 以 通过 set() 方 法 进行 修改 。 和 Text 相似 ， 
BytesWritable 类 的 getBytes() 方 法 返回 的 字 节 数组 长 度 可 能 无 法 体现 BytesWritable 所 存 

BytesWritable 所 存储 数据 的 实际 大 小 可 以 通过 getLength() 方 法 来 确定 。 具 体 示例 
如 下 : 

b.setCapacity (11); 

assertThat (b.getLength () ,is (2) ); 

assertThat (b.getBytes () .length, is (11) ) ; 

4. NullWritable 

NullWritable 是 Writable 的 特殊 类 型 , 它 的 序列 化 长 度 为 0。 它 并 不 从 数据 流 中 读 取 
数据 ,也 不 写 入 数据 。 它 充当 占 位 符 。 例 如 ,在 MapReduce 中 ,如 果 不 需 要 使 用 键 或 值 的 序 
列 化 地 址 ,就 可 以 将 健 或 值 声明 为 NullWritable, 结 果 是 高 效 的 存储 常量 空 值 。 

NullWritable 是 一 个 不 可 变 的 单 例 实例 类 型 ,可 以 通过 调用 NullWritable. get() 方 法 
获得 其 实例 。 

5. ObjectWritable 类 型 

针对 一 些 常 用 的 Java 类 ,ObjectWritable 是 一 种 多 用 途 的 封装 , 它 使 用 Hadoop 的 RPC 
来 封 送 (marshal) 和 反 封 送 (unmarshal) 方 法 参数 和 返回 类 型 。 

当 一 个 字段 中 包含 多 个 类 型 时 ,ObjectWritable 是 非常 有 用 的 ,车 SequenceFile 中 的 值 
包含 多 个 类 型 ,就 可 以 将 值 类 型 声明 为 ObjectWritable。 

6. GenericWritable 类 型 

很 多 时 候 , 特 别 是 处 理 大 数据 的 时 候 , 我 们 希望 一 个 MapReduce 过 程 就 可 以 解决 几 个 
问题 。 这 样 可 以 避免 再 次 读 取 数据 。 例 如 ,在 做 文本 聚 类 和 分 类 时 ,Mapper 读 取 语 料 (在 
统计 自然 语言 处 理 中 实际 上 不 可 能 观测 到 大 规模 的 语言 实例 ) 进 行 分 词 后 ,要 同时 算出 每 个 
词 条 的 频率 以 及 它 的 文档 的 频率 ,前 者 对 于 每 个 词 条 来 说 其 实 是 个 向 量 , 它 代表 此 词 条 在 
N 篇 文档 中 的 词 频 ; 而 后 者 就 是 一 个 非 负 整数 。 这 时 候 就 可 以 借助 一 种 特殊 的 Writable 类 
GenericWritable。 

GenericWritable 用 法 是 ,继承 这 个 类 ,然后 把 要 输出 Value 的 Writable 类 型 加 进 它 的 
Class 静态 变量 里 。 

7. Writable 集合 类 

org. apache. hadoop. io 软件 包 中 一 共有 6 个 Writable 集合 类 型 .分 别 是 ArrayWritable、 
ArrayPrimitiveWritable, TwoDArrayWritable ,MapWritable ,SortedMapWritable 和 EnumMapWritable。 


1) ArrayWritable 和 TwoDArrayWritable 

ArrayWritable 和 TwoDArrayWritable 是 Writable 针对 数组 和 二 维 数组 (数组 的 数 
组 ) 实 例 的 实现 。 所 有 对 ArrayWritbale 或 者 TwoDArayWritable 的 使 用 都 必须 实例 化 相 
同 的 类 ,这 是 在 构造 函数 中 指定 的 ,如 下 所 示 : 


ArrayWritable writable=new ArrayWritable (Text .class); 


4 Writable 根据 类 型 来 定义 ,例如 在 SequenceFile 的 键 或 值 ,或 一 般 作 为 MapReduce 
的 输入 , 则 需要 继承 ArrayWritable( 或 恰当 使 用 TwoDArrayWritable 类 ) 以 静态 方式 来 设 
置 类 型 。 例 如 : 
public class TextArrayWritable extends ArrayWritable{ 
public TextArrayWritable() { 
super (Text.class) ; 
} 
} 
ArrayWritable #1 TwoDArrayWritable 都 有 get() .set() 和 toArray() 方 法 ,toArray() 
方法 用 于 创建 数组 (或 者 二 维 数组 ) 的 浅 拷贝 (shallow copy). 
2) MapWritable 和 SortedMapWritable 
MapWritable 和 SortedMapWritable 分 别 实现 了 java. util. Map( Writable, Writable) 和 
java, util. SortedMap( WritableComparable. Writable)。 每 个 键 / 值 字段 的 类 型 都 是 此 字 
段 序 列 化 格式 的 一 部 分 。 类 型 保存 为 单字 节 , 充 当 一 个 数组 类 型 的 索引 。 数 组 是 用 
org. apache. hadoop. io 包 中 的 标准 类 型 来 填充 的 , 自 定义 的 Writable 类 型 也 是 可 以 的 ,但 对 
于 非 标准 类 型 , 则 需要 在 包头 指明 所 使 用 的 数组 类 型 。 


6.3.4 自 定义 Writable 接口 


Hadoop 自 带 一 系列 有 用 的 Writable 实现 ,如 IntWritable, LongWritable 等 ,可 以 满足 
一 些 简单 的 数据 类 型 。 但 有 时 ,负载 的 数据 类 型 需要 自 定 义 实 现 。 通 过 自 定 义 Writable, 能 
够 完全 控制 二 进 制 表示 和 排序 顺序 。 

Writable 是 MapReduce 数据 路 径 的 核心 ,所 以 调整 二 进 制 表示 对 其 性 能 有 显著 影响 。 
现 有 的 Hadoop Writable 应 用 已 得 到 很 好 的 优化 ,但 为 了 对 付 更 复杂 的 结构 ,最 好 创建 一 个 
新 的 Writable 类 型 ,而 不 是 使 用 已 有 的 类 型 。 

1. 自 定义 一 个 Writable 类 型 TextPair 

为 了 演示 如 何 创建 一 个 自 定义 Writable, 编写 了 一 个 表示 一 对 字符 串 的 实现 ,名 为 
TextPair, 例 6-6 显示 了 最 基本 的 实现 。 

例 6-6 存储 一 对 Text 对 象 的 Writable。 


import java.io. * ; 
import org.apache.hadoop.io. * ; 


public class TextPair implements WritableComparable< TextPair> { 
private Text first; 


private Text second; 


publicTextPair() { 
set (new Text (), new Text ()) 7 


} 
public TextPair (String first, String second) { 
set (new Text (first), new Text (second)); 
} 
public TextPair (Text first, Text second) { 
set (first, second) ; 
} 
public void set (Text first, Text second) { 
this.first=first; 
this.second= second; 
} 
public Text getFirst () { 
return first; 
} 
Public Text getSecond() { 
return second; 
} 
@ Override 
public void write (DataOutput out) throws IOException { 
first.write (out); 
second.write (out); 
} 
@ Override 
public void readFields (DataInput in) throws IOException { 
first.readFields (in); 
second. readFields (in); 
} 
@ Override 
public int hashCode() { 
return first.hashCode() * 163 + second.hashCode () ; 
} 
@ Override 
public boolean equals (Object o) { 
if (o instanceof TextPair) { 
TextPair tp= (TextPair) o; 
return first.equals(tp.first) && second.equals (tp.second) ; 
} 
return false; 
} 
@ Override 
public String toString() { 
return first +"\t" + second; 
$ 
@ Override 
public int compareTo (TextPair tp) { 
int cmp= first.compareTo (tp.first); 
if (cmp !=0) { 
return cmp; 


return second.compareTo (tp.second) ; 


} 


此 实现 的 第 一 部 分 直观 易 懂 : 包括 两 个 Text 实例 变量 (first 和 second) 和 相关 的 构造 
函数 ,以 及 setter 方法 和 getter 方法 ( 即 设置 函数 和 提取 函数 )。 所 有 的 Writable 实现 都 必 
须 有 一 个 默认 的 构造 函数 ,以 便 MapReduce 框架 能 够 对 它们 进行 实例 化 ,进而 调用 
readFields() 方 法 来 填充 它们 的 字段 。Writable 实例 是 易 变 的 .并且 通常 可 以 重用 ,所 以 应 
该 尽量 避免 在 write() 或 readFields() 方 法 中 分 配对 象 。 

通过 委托 给 每 个 Text 对 象 本 身 ,TextPair 的 write() 方 法 依次 序列 化 输出 流 中 的 每 一 
个 Text 对 象 。 同 样 ,也 通过 委托 给 Text 对 象 本 身 ,readFields() 反 序列 化 输入 流 中 的 字 节 。 
DataOutput 和 DataInput 接口 有 一 套 丰 富 的 方法 用 于 序列 化 和 反 序 列 化 Java 基本 类 型 。 
所 以 ,在 通常 情况 下 ,可 以 完全 控制 Writable 对 象 的 数据 传输 格式 。 

就 像 为 Java 写 的 任意 值 对 象 一 样 ,需要 重 写 java. lang. Object 的 hashCode() 方 法 、 
equals() 方 法 和 toString() 方 法 。HashPartitioner(MapReduce 中 的 默认 分 区 类 ) 通 常 使 用 
hashCode() 方 法 来 选择 reduce 分 区 ,所 以 应 该 确保 有 一 个 较 好 的 喻 希 函 数 来 确保 reduce 
函数 的 分 区 在 大 小 上 是 相当 的 。 

TextPair 是 WritableComparable 的 一 个 实现 ,所 以 它 提 供 了 compareTo() 方 法 ,该 方 
法 可 以 强制 数据 排序 : 先 按照 第 一 个 字符 排序 ,如 果 第 一 个 字符 相同 则 按照 第 二 个 字符 排 
序 。 需 注意 的 是 ,TextPair 不 同 于 前 面 的 TextArrayWritable 类 (除了 它 可 以 存储 Text 对 
象 数 之 外 ) ,因为 TextArrayWritable 只 继承 了 Writable, 并 没有 继承 WritableComparable。 

2. 实现 一 个 快速 的 RawComparator 

例 6-6 中 的 TextPair 代码 可 以 按照 其 描述 的 基本 方式 运行 ,但 还 可 以 进一步 优化 。 正 
如 前 面 所 述 ,在 MapReduce 中 ,TextPair 被 用 作 键 时 , 它 必须 被 反 序 列 化 为 要 调用 的 
compareTo() 方 法 的 对 象 。 那 么 ,是 否 可 以 通过 查看 其 序列 化 表示 的 方式 来 比较 两 个 
TextPair 对 象 呢 ? 

事实 证 明 , 可 以 这 样 做 ,因为 TextPair 由 两 个 Text 对 象 连接 而 成 ,二 进 制 Text 对 象 表 
示 是 一 个 可 变 长 度 的 整 型 ,包含 UTF-8 表示 的 字符 串 中 的 字 节 数 以 及 UTF-8 字 节 本 身 。 
关键 在 于 读 取 该 对 象 的 起 始 长 度 , 从 而 得 知 第 一 个 Text 对 象 的 字 节 表 示 有 多 长 ,然后 可 以 
委托 Text 对 象 的 RawComparator, 利 用 第 一 或 者 第 二 个 字符 串 的 偏 移 量 来 调用 它 。 详 细 
过 程 参 见 例 6-7( 注 意 ,该 代码 嵌 套 在 TextPair 类 中 )。 

例 6-7 用 于 比较 TextPair 字 节 表示 的 RawComprartor。 

public static class Comparator extends WritableComparator { 

private static final Text .Comparator TEXT COMPARATOR=new Text .Comparator () ; 
public Comparator () { 
super (TextPair.class) ; 
ee 
public int compare (byte[] bl, int s1, int 11, 
byte[] b2, int s2,int 12) { 
try { 


int firstL1=WritableUtils.decodeVIntSize (bl[s1]) +readVInt (bl, s1); 
int firstL2=WritableUtils.decodeVIntSize (b2[s2]) +readVInt (b2, s2); 
int cmp= TEXT COMPARATOR.compare (bl, sl, firstLl, b2, s2, firstL2); 
if (cmp !=0) { 
return cmp; 
} 
return TEXT_COMPARATOR.compare (bl, sl + firstL1，11- firstLl, 
b2, s2+firstL2, 12- firstL2); 
} catch (IOException e) { 
throw new IllegalArgumentException (e) ; 
} 
} 
} 
static { 
WritableComparator.define (TextPair.class, new Comparator ()); 
} 


事实 上 ,采取 的 做 法 是 继承 WritableComparator 类 ,而 不 是 直接 实现 RawComparator 
接口 ,因为 它 提供 了 一 些 比 较 好 用 的 方法 和 默认 实现 。 这 段 代 码 的 精妙 之 处 在 于 计算 
firstLl 和 firstL2, 这 两 个 参数 表示 每 个 字 节 流 中 第 一 个 Text 字段 的 长 度 。 每 个 都 由 可 变 
长 度 的 整 型 (由 WritableUtils 的 decodeVIntSize() 方 法 返回 ) 和 它 的 编码 值 ( 由 readVInt() 
方法 返 问 ) 组 成 。 

静态 代码 块 注册 原始 的 comparator 以 便 MapReduce 每 次 看 到 TextPair 类 ,就 知道 使 
用 原始 comparator 作为 其 默认 comparator。 

3. 自 定 义 Comparator 

从 TextPair 可 以 看 出 ,编写 原始 的 comparator 需要 谨慎 ,因为 必须 要 处 理 字 节 级 别 的 
细节 。 如 果真 的 需要 编写 comparator, 有 必要 参考 org. apache. hadoop. io 包 中 对 Writable 
接口 的 实现 。WritableUtils 工具 类 提供 的 方法 也 非常 方便 。 

如 果 可 能 , 自 定义 的 comparator 也 应 该 继承 自 RawComparator。 这 些 comparator 实 
现 的 排序 顺序 不 同 于 默认 comparator 定义 的 自然 排序 顺序 。 例 6-8 显示 了 一 个 针对 
TextPair 类 型 的 comparator, 称 为 FirstComparator。 它 只 考虑 Text 对 象 中 的 第 一 个 字符 
串 。 注 意 , 重 载 针对 该 类 对 象 的 compare() 方 法 ,使 两 个 compare() 方 法 有 了 相同 的 语法 。 

例 6-8 自 定义 的 RawComprartor 用 于 比较 TextPair 对 象 字 节 表 示 的 第 一 个 。 


public static class FirstComparator extends WritableComparator { 
private static final Text .Comparator TEXT_COMPARATOR=new Text .Comparator () 7 
public FirstComparator() { 
super (TextPair.class) ; 
} 
@ Override 
public int compare (byte [] bl, int sl, int 11, 
byte[] b2, int s2, int 12) { 
try { 
int firstLl=WritableUtils.decodeVIntSize (bl [s1]) +readVInt (bl, s1); 
int firstL2=WritableUtils.decodeVIntSize (b2[s2]) +readVInt (b2, 32); 
return TEXT COMPARATOR.compare (bl, sl, firstLl, b2, s2, firstL2); 
} catch (IOException e) { 


throw new IllegalArgumentException (e); 
$ 
} 
@ Override 
public int compare (WritableComparable a, WritableComparable b) { 
if (a instanceof TextPair && b instanceof TextPair) { 
return ((TextPair) a) .first.compareTo(((TextPair) b) .first); 
} 
return super.compare (a, b); 


} 


对 public int compare ( WritableComparable a, WritableComparable b) 方 法 进行 了 重 
写 ,在 该 方法 里 对 first 属性 进行 排序 ,以 下 两 个 方法 的 语义 是 相同 的 。 

public int compare (byte[] bl, int sl, int 11,byte[] b2, int s2, 

int 12) 

public int compare (WritableComparable a, WritableComparable b) 

虽然 两 个 compare( ) 方 法 的 语义 是 相同 的 ,只 是 实现 的 方式 不 一 样 , 第 一 个 方法 的 实现 
就 是 使 用 了 WritableUtils 工具 类 。 


6.3.5 序列 化 框架 


尽管 大 多 数 MapReduce 程序 使 用 的 都 是 Writable 类 型 的 键 和 值 ,但 这 并 不 是 
MapReduce API 强制 使 用 的 。 事实 上 ,可 以 使 用 任何 类 型 ,只 要 能 有 一 种 机 制 对 每 个 类 型 
进行 类 型 与 二 进 制 表 示 的 来 回转 换 。 

为 了 支持 这 一 机 制 ,Hadoop 有 一 个 针对 可 替换 序列 化 框架 (serialization framework) 
的 API。 序 列 化 框架 用 一 个 Serialization 实现 (包含 在 org. apache. hadoop. io. serializer 包 ) 
来 表示 。 例 如 ,WritableSerialization 类 是 对 Writable 类 型 的 Serialization 的 实现 。 

Serialization 对 象 定义 了 从 类 型 到 Serializer 实例 (将 对 象 转换 为 字 节 流 ) 和 Deserializer 
实例 (将 字 节 流转 换 为 对 象 ) 的 映射 方式 。 

将 io. Serializations 属性 设置 为 一 个 由 逗号 分 隔 的 类 名 列表 . 即 可 注册 Serialization 
实现 。 


6.4 Hadoop 文 件 的 数据 结构 


Hadoop 的 HDFS 和 MapReduce 子 框架 主要 是 针对 大 数据 文件 来 设计 的 ,在 小 文件 的 
处 理 上 不 但 效率 低 , 而 且 十 分 消耗 磁盘 空间 (每 一 个 小 文件 占用 一 个 Block, HDFS 默认 
Block 大 小 为 128MB) 。 解 决 办 法 通常 是 选择 一 个 容器 ,将 这 些小 文件 组 织 起 来 统一 存储 。 

HDFS 提供 了 两 种 类 型 的 容器 .分 别 是 SequenceFile 和 MapFile。 


6.4.1 SequenceFile 存储 
SequenceFile 的 存储 类 似 于 Log 文件 ,所 不 同 的 是 Log File 的 每 条 记录 的 是 纯 文 本 数 
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据 , 而 SequenceFile 的 每 条 记录 是 可 序列 化 的 字符 数组 。 
SequenceFile 完成 新 记录 的 添加 操作 API 为 fileWriter. append(key,value)。 可 以 看 
到 ,每 条 记录 以 键 值 对 的 方式 进行 组 织 , 但 前 提 是 Key 和 Value 需 具 备 序列 化 和 反 序 列 化 


的 功能 。 
在 存储 结构 上 ,SequenceFile 主要 由 一 个 Header 后 跟 多 条 Record 组 成 ,如 图 6-2 
所 示 。 
Header Record | Record | Sync | Record | Record l Record | Sync | Record 
No Record 
compressin | length Key length Key Value 
4 4 
Record Record ‘Compressed! 
compression] length Key length Key Value 


4 4 
图 6-2 SequenceFile 文件 结构 


Header 主要 包含 了 Key classname, Value classname、 存 储 压 缩 算法 、 用 户 自 定义 元 数 
据 等 信息 ,此 外 ,还 包含 了 一 些 同步 标识 ,用 于 快速 定位 到 记录 的 边界 。 

每 条 Record 以 键 值 对 的 方式 进行 存储 ,用 来 表示 它 的 字符 数组 可 依次 解析 成 : 记录 的 
长 度 、Key 的 长 度 、Key 值 和 Value 值 , 并 且 Value 值 的 结构 取决 于 该 记录 是 否 被 压缩 。 

数据 压缩 有 利于 节省 磁盘 空间 和 加 快 网 络 传输 ,SeqeunceFile 支持 两 种 格式 的 数据 不 
Hä ,分别 是 Record compression 和 Block compression, 

(1) Record compression 如 图 6-2 所 示 ,是 对 每 条 记录 的 value 进行 压缩 。 

(2) Block compression 是 将 一 连 串 的 Record 组 织 到 一 起 ,统一 压缩 成 一 个 Block, 

如 图 6-3 所 示 ,Block 信息 主要 存储 了 块 所 包含 的 记录 数 、 每 条 记录 Key 长 度 的 集合 、 
每 条 记录 Key 值 的 集合 、 每 条 记录 Value 长 度 的 集合 和 每 条 记录 Value 值 的 集合 。 


Header Sync | Block Syne Block Syne Block Syne Block 
Block Number of | Compressed | Compressed | Compressed | Compressed 
compression records key lengths keys value lengths values 
1-5 


图 6-3 Block 结构 模型 


注意 : 每 个 Block 的 大 小 是 可 通过 io. seqfile. compress. blocksize 属性 来 指定 的 。 

1. SequenceFile 写 操作 

通过 createWriter ( ) 静态 方法 可 以 创建 一 个 SequenceFile 对 象 , 并 返回 一 个 
SequenceFile. Writer 实例 。 该 静态 方法 有 多 个 重 载 方法 ,但 都 需要 指定 写 入 的 数据 流 


(FSDataOutputStream FileSystem 对 象 和 Path XZ) Configuration 对 象 ,以 及 键 和 值 的 
类 型 。 

存储 在 SequenceFile 中 的 键 和 值 对 并 不 一 定 是 Writable 类 型 。 任 何 一 种 通过 
Serialization 类 实现 序列 化 和 反 序 列 化 的 类 型 均 可 被 使 用 。 一 旦 拥有 SequenceFile. Writer 
实例 ,就 可 以 通过 append() 方 法 在 文件 未 尾 附 加 键 / 值 对 。 写 完 后 ,可 以 调用 close() 方 法 关 
ASA. 

写 入 SequenceFile 对 象 的 操作 如 例 6-9 所 示 。 

例 6-9 写 入 SequenceFile 对 象 。 


public class SequenceFileWriteDemo { 
private static final String[] DATA={ "One, two, buckle my shoe", 
"Three, four, shut the door", "Five, six, pick up sticks", 
"Seven, eight, lay them straight", "Nine, ten, a big fat hen" }; 
public static void main(String[] args) throws IOException { 
String uri="hdfs://master:9000/numbers.seq"; 
Configuration conf= new Configuration (); 
FileSystem fs=FileSystem.get (URI .create (uri), conf); 
Path path= new Path (uri); 
IntWritable key=new IntWritable (); 
Text value=new Text () 7 
SequenceFile.Writer writer=null; 
try { 
writer=SequenceFile.createWriter (fs, conf, path, key.getClass(), 
value.getClass()); 
for (int i=0; i<100; i++) { 
key.set (100- i); 
value.set (DATA[i %DATA. length]); 
System.out.printf (" [% s] \t% s\t% s\n", writer. getLength (), key, value); 
writer.append (key, value); 
} 
} finally { 
IoUtils.closeStream (writer) ; 
} 


} 


顺序 文件 中 存储 的 键 / 值 对 , 键 是 从 100 到 1 降序 排列 的 整数 ,表示 为 IntWritable 对 
象 , 值 是 Text 对 象 。 在 将 每 条 记录 追加 到 SequenceFile. Writer 实例 末尾 之 前 ,调用 
getLength() 方 法 来 获取 文件 的 当前 位 置 。 结 果 如 下 所 示 。 


[128] 100 one, two, buckle my shoe 


[173] 99 Three, four, shut the door 
[220] 98 Five, six, pick up sticks 

[264] 97 Seven, eight, lay them straight 
[314] 96 Nine, ten, a big fat hen 

[359] 95 One, two, buckle my shoe 

[404] 94 Three, four, shut the door 
[451] 93 Five, six, pick up sticks 

[495] 92 Seven, eight, lay them straight 


[545] 91 Nine, ten, a big fat hen 
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[1976] 60 One, two, buckle my shoe 

[2021] 59 Three, four, shut the door 
[2088] 58 Five, six, pick up sticks 
[2132] 57 Seven, eight, lay them straight 
[2182] 56 Nine, ten, a big fat hen 

[4557] 5 One, two, buckle my shoe 

[4602] 4 Three, four, shut the door 
[4649] 3 Five, six, pick up sticks 
[4693] 2 Seven, eight, lay them straight 
[4743] 1 Nine, ten, a big fat hen 


2. SequenceFile 读 操作 
从 头 到 尾 读 取 顺 序 文件 的 过 程 是 创建 SequenceFile. Reader 实例 后 反复 调用 next O77 
法 迭代 读 取 记 录 的 过 程 。 读 取 的 是 哪 条 记录 与 你 使 用 的 序列 化 框架 相关 。 如 果 你 使 用 的 是 


Writable 类 型 ,那么 通过 键 和 值 作为 参数 的 next() 方 法 可 以 将 数据 流 中 的 下 一 条 键 值 对 读 
人 变量 中 。 


public boolean next (Writable key,Writable val); 


如 果 读 取 成 功 , 则 返回 true; 如 果 以 读 到 文件 尾 , 则 返回 false。 如 果 读 取 非 Writable 类 
型 的 序列 化 框架 , 则 需要 使 用 以 下 方法 。 


public Object next (Object key ) throws IOException; 
public Object getCurrentValue (Object val) throws IOException; 


这 种 情况 下 ,请 确保 在 io. serializations 属性 已 经 设置 了 想 使 用 的 序列 化 框架 。 如 果 
next() 方 法 返回 非 空 对 象 , 则 可 以 从 数据 流 中 读 取 键 / 值 对 ,并 且 可 以 通过 getCurrentValue() 
方法 读 取 该 值 。 和 否则 返回 null 表示 到 文件 尾 。 

读 取 SequenceFile 文件 操作 的 代码 如 例 6-10 所 示 。 

例 6-10 读 取 SequenceFile。 


public class SequenceFileReadDemo { 
Public static void main (String[] args) throws IOException { 
String uri=args[0]; 
Configuration conf=new Configuration(); 
FileSystem fs=FileSystem.get (URI .create (uri), conf); 
Path path=new Path (uri); 
SequenceFile.Reader reader=null; 
try { 
reader= new SequenceFile.Reader (fs, path, conf); 
Writable key= (Writable) ReflectionUtils.newInstance ( 
reader .getKeyClass(), conf); 
Writable value= (Writable) ReflectionUtils.newInstance ( 
reader .getValueClass(), conf); 
long position= reader .getPosition (); 
while (reader.next (key, value)) { 
String syncSeen= reader.syncSeen() ?"* " ; ""; 
System.out .printf ("[%s%s]\t%s\t%s\n", position, syncSeen, key, value) ; 
position=reader.getPosition(); 
} 
} finally { 


IoUtils.closeStream (reader) ; 


} 


该 程序 的 一 个 特性 是 能 够 显示 顺序 文件 中 同步 点 的 位 置信 息 。 所 谓 同 步 点 ,是 指数 据 
读 取 的 实例 出 错 后 能 够 再 一 次 与 记录 边界 同步 的 数据 流 中 的 一 个 位 置 。 例 如 ,在 数据 流 中 
搜索 到 任意 位 置 后 。 同 步 点 是 由 SequenceFile. Writer 记录 的 ,后 者 在 顺序 文件 写 入 过 程 中 
插入 一 个 特殊 项 ,以 便 每 隔 几 个 记录 便 有 一 个 同步 标识 。 这 样 的 特殊 项 非常 小 ,因而 只 造成 
很 小 的 存储 开销 ,不 到 1% ,同步 点 始终 位 于 记录 的 边界 处 。 

运行 例 6-9 后 ,会 显示 星 号 表示 的 顺序 文件 中 的 同步 点 。 第 一 同步 点 位 于 2021 处 ,第 
二 个 位 于 4075 处 。 


[128] 109 One, two, buckle my shoe 


[173] 99 Three, four, shut the door 
[220] 98 Five, six, pick up sticks 

[264] 97 Seven, eight, lay them straight 
[314] 96 Nine, ten, a big fat hen 

[359] 95 One, two, buckle my shoe 

[404] 94 Three, four, shut the door 
[451] 93 Five, six, pick up sticks 

[495] 92 Seven, eight, lay them straight 
[545] 91 Nine, ten, a big fat hen 

[590] 90 One, two, buckle my shoe 

[1976] 60 One, two, buckle my shoe 
[2021*] 59 Three, four, shut the door 
[2088] 58 Five, six, pick up sticks 
[2132] 57 Seven, eight, lay them straight 
[2182] 56 Nine, ten, a big fat hen 
[[4075*] 15 One, two, buckle my shoe 
[4140] 14 Three, four, shut the door 
1[4187] 13 Five, six, pick up sticks 
|[4231] 12 Seven, eight, lay them straight 
1[4281] 11 Nine, ten, a big fat hen 

[4557] 5 One, two, buckle my shoe 

[4602] 4 Three, four, shut the door 
[4649] 3 Five, six, pick up sticks 
[4693] 2 Seven, eight, lay them straight 
[4743] 1 Nine, ten, a big fat hen 


6.4.2 MapFile 存储 


1. MapFile 写 操作 

MapFile 的 写 人 类 似 于 SequenceFile 的 写 入 。 首 先 新 建 一 个 MapFile. Writer 实例 , 然 
后 调用 append() 方 法 顺序 写 入 文件 内 容 。 如 果 不 按 顺序 写 入 ,就 抛 出 一 个 IOException 异 
常 , 键 必须 是 WritableComparable 类 型 的 实例 , 值 必须 是 Writable 类 型 的 实例 。 这 与 
SequenceFile 中 对 应 的 正好 相反 。 

例 6-11 中 的 程序 新 建 一 个 MapFile 对 象 , 然 后 向 它 写 和 一些 记录 。 

例 6-11 A MapFile。 


public class MapFileWriteDemo { 
private static final String [] DATA={ 
"One, two, buckle my shoe", 
"Three, four, shut the door", 
"Five, six,pick up sticks", 
"Seven, eight, lay them straight", 
"Nine, ten,a big fat hen" 


Ve 

public static void main (String[] args) throws Exception { 
String uri="hdfs://master:9000/numbers.map"; 
Configuration conf=new Configuration (); 
FileSystem fs=FileSystem.get (URI .create (uri) , conf) ; 
IntWritable key=new IntWritable(); 
Text value=new Text () 7 
MapFile.Writer writer=null; 
try{ 


writer=new MapFile.Writer (conf, fs,uri, key.getClass (), value.getClass()); 


for(int i=0;i<1024;i++){ 
key.set (it 1); 
value.set (DATA[i% DATA. length]); 
writer.append (key, value); 
i 
}finally{ 
IOUtils.closeStream(writer); 


} 
运行 程序 ,使 用 这 个 程序 构建 一 个 MapFile, 出 现下 列 情况 说 明 运行 成 功 。 


29,419 WARN [main] util.NativeCodeLoader (| 
31,906 INFO [main] compress.CodecPool (ColecPool.Java-getConpressor (151) 
:31,920 INFO [main] compress.CodecPool (CodecPool. java:getCompressor(151)) 


当 输入 命令 hadoop fs -ls /numbers. map ,可 以 看 到 : 


Found 2 items 
-rw-r--r-- 3 zkpk supergroup 45830 2015-12-15 15:19 /numbers.map/data 
-rw-r--r-- 3 zkpk supergroup 251 2015-12-15 15:19 /numbers.map/index 


可 以 发 现 ,numbers. map 实际 上 是 一 个 包含 data 和 index 这 两 个 文件 的 文件 夹 , 且 这 
两 个 文件 都 是 SequenceFile。data 文件 包含 所 有 记录 ,如 下 : 


$hadoop fs - text /numbers.map/data|head 


One, two, buckle my shoe 
Three, four, shut the door 
Five, six,pick up sticks 
Seven,eight,lay them straight 
Nine,ten,a big fat hen 

One, two,buckle my shoe 
Three, four, shut the door 
Five,six,pick up sticks 
Seven,eight,lay them straight 
Nine,ten,a big fat hen 


index 文件 包含 一 部 分 键 和 data 文件 中 键 到 其 偏 移 量 的 映射 : 


Doomwvaowewnn 


$ hadoop fs - text /numbers.map/index 


1 128 
129 5823 
257 11542 
385 17262 
513 22978 
641 28676 
769 34391 
897 40110 


从 输出 可 以 看 出 ,默认 情况 下 ,只 有 每 隔 128 个 键 才 有 一 个 包含 在 index 文件 中 ,当然 
也 可 以 调整 ,调用 MapFile. Writer 实例 的 setIndexInterval( ) 方 法 来 设置 io. map. index. 
interval 属性 进行 调整 。 

2. MapFile 读 操 作 

在 MapFile 依次 遍历 文件 中 所 有 条 目的 过 程 ,类 似 于 SequenceFile 中 的 过 程 : 首先 新 
建 一 个 MapFile. Reader 实例 ,然后 调用 next() 方 法 ,直到 返回 值 为 false( 表 示 没 有 条 目 返 
回 , 因 为 已 经 读 到 文件 末尾 ) : 


public boolean next (WritableComparable key,Writable val) 
throws IOException 


通过 调用 get() 方 法 可 以 随机 访问 文件 中 的 数据 : 


publicWritableget (WritableComparable key, Writable val) 

throws IOException 

返回 值 用 于 确定 是 否 在 MapFile 中 找到 相应 的 条 目 ; 如 果 是 null, 说 明 指 定 key 没有 相 
应 的 条 目 。 若 找到 相应 的 key, 则 将 该 键 对 应 的 值 读 入 val 变量 ,通过 方法 调用 返回 。 

这 有 助 于 我 们 理解 实现 过 程 。 下 面 的 代码 是 我 们 在 前 一 小 节 中 建立 的 ,用 于 检索 
MapFile 中 的 条 目 : 

Text value=new Text () 

Reader.get (new Intwritable (496) , value) ; 

assertThat (value.toString(),is("One, two,buckle my shoe") ); 

对 于 这 个 操作 ,MapFile. Reader 首先 将 index 文件 读 和 内存 ( 由 于 索引 是 缓存 的 ,所 以 
后 续 的 随机 访问 将 使 用 内 存 中 的 同一 个 索引 ) 。 接 着 对 内 存 中 的 索引 进行 二 分 查找 ,最 后 找 
到 小 于 或 等 于 搜索 索引 的 键 496。 在 本 例 中 ,找到 的 键 位 于 385, 对 应 的 值 为 18030,data X 
件 中 的 偏 移 量 ,接着 顺序 读 data 文件 中 的 键 ,直到 读 取 到 496 为 止 。 至 此 ,找到 键 所 对 应 的 
值 , 最 后 从 data 文件 中 读 取 相 应 的 值 。 就 整体 而 言 ,一 次 查找 需要 一 次 磁盘 寻 址 和 一 次 最 
多 有 128 个 条 目的 扫描 。 对 于 随机 访问 ,这 是 非常 高 效 的 。 

getClost 方法 和 get 方法 相似 ,不 同 的 是 前 者 返回 与 指定 键 匹配 的 最 近 的 值 ,并 不 是 在 
不 匹配 时 返回 null。 更 准确 地 说 ,如 果 MapFile 包含 指定 的 键 , 则 返回 对 应 的 条 目 ;否则 , 返 
El MapFile 中 在 key 之 前 或 者 之 后 的 第 一 个 键 所 对 应 的 值 (由 相应 的 boolean 参数 决定 ) 。 

大 型 MapFile 的 索引 会 占据 大 量 内 存 。 可 以 不 选择 在 修改 索引 间隔 之 后 重建 索引 ,而 是 
在 读 取 索引 时 设置 io. mao. index. skip 属性 来 加 载 一 部 分 索引 键 。 该 属性 默认 为 0, 表 示 不 路 
过 索引 键 ;如 果 设 置 为 1, 则 表示 每 次 跳 过 索引 键 中 的 一 个 ,也 就 是 每 隔 一 个 索引 读 取 一 次 , 即 
只 读 取 索引 的 二 分 之 一 。 设 置 大 的 跳跃 值 可 以 节省 大 量 的 内 存 , 但 是 会 增加 搜索 时 间 。 
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本 章 小 结 


本 章 主 要 讲 了 一 些 Hadoop I/O 底层 的 知识 ,让 读者 了 解 Hadoop 底层 的 一 些 原理 。 

CL) 介绍 了 HDFS 的 数据 完整 性 ,讲述 了 2 种 验证 数据 完整 性 的 方法 ,分 别 是 客户 端 校 
验 类 LocalFileSystem 和 ChecksumFileSystem， 其 中 LocalFileSystem 是 继承 自 
ChecksumFileSystem 来 完成 任务 的 。 

(2) 先 讲述 了 文件 压缩 的 好 处 。 之 后 简单 介绍 了 Hadoop 支持 的 压缩 格式 有 哪 几 种 ， 
根据 它们 的 异同 点 来 选择 使 用 哪 种 压缩 格式 。 

(3) 从 4 个 方面 详细 讲述 了 压缩 -解压 缩 算法 codec, 分 别 是 CompressionCodec 类 、 
CompressionCodecFactory 类 .本 地 库 和 CodecPool, 掌 握 章节 中 所 讲 的 范例 。 

(4) Hadoop 应 用 处 理 的 数据 集 非 常 大 ,因此 需要 借助 于 压缩 。 使 用 哪 种 压缩 格式 与 待 
处 理 的 文件 的 大 小 ,格式 和 所 使 用 的 工具 相关 。 通 过 分 析 能 够 选择 出 使 用 哪 种 压缩 格式 比 
较 合适 。 

(5) 理解 序列 化 和 反 序列 化 的 概念 ,掌握 序列 化 的 要 求 。 

(6) 在 Hadoop 中 ,Writable 接口 定义 了 两 个 方法 : 一 个 用 于 将 其 状态 写 和 二进制 格式 
的 DataOutput 流 ; 另 一 个 用 于 从 二 进 制 格式 的 Datalnput 流 读 取 其 状态 。 通 过 一 个 特殊 的 
Writable 类 来 了 解 了 Writable 接口 的 具体 用 途 。 

(7) 详细 讲述 了 WritableComparable 和 Comparator 之 间 不 同 的 用 法 。 

(8) 详细 讲述 了 Hadoop 自 带 的 Writable 类 ,它们 分 别 是 IntWritable, FloatWritable, 
BooleanWritable, Long Writable .ByteWritable .BytesWritable .DoubleWritable。 

(9) Text 是 针对 UTF-8 序列 的 Writable 类 。 一 般 可 以 认为 它 等 价 于 java. lang. 
String 的 Writable。 分 别 从 索引 、Unicode、 和 迭 代 、 可 变性 和 对 String 重新 排序 这 五 个 方面 来 
讲述 了 Text 类 型 。 

(10) 除了 Hadoop 自 带 一 系列 有 用 的 Writable 实现 ,还 可 以 自 定义 Writable 类 型 ,分 
别 从 TextPair, RawComparator 和 自 定义 Comparator 来 详细 讲述 了 自 定义 的 Writable 
类 型 。 

(11) HDFS 提供 了 两 种 类 型 的 容器 ,分 别 是 SequenceFile 和 MapFile。 重 点 掌握 
SequenceFile 和 MapFile 的 读 写 操作 的 实现 代码 。 


习 Bi 
1. 选择 题 
(1) Hadoop 目前 支持 很 多 压缩 格式 ,( ) 支 持 切 分 。 
A. Gzip B. bzip2 C. LZO D. Snappy 


(2) 考虑 到 性 能 ,最 好 使 用 本 地 库 Cnative library) 来 压缩 和 解压 ,但 并 非 所 有 格式 都 有 
本 地 实现 和 Java 实现 ,( ) 压 缩 格式 即 有 本 地 实现 又 有 Java 实现 。 


A. Gzip B. bzip2 c..LZ0 D. Snappy 

(3) ( ) 不 是 RPC 对 于 序列 化 的 要 求 。 
A, 紧凑 B. 快速 C. DRE D. 可 扩展 

(4) 对 于 WritableComparable 的 接口 声明 ,( ) 是 正确 的 。 
A. publicinterfaceWritableComparable<t>extendsWritable, Comparable<T> { } 
B. public classWritableComparable<t>extendsWritable,Comparable<T> { } 
C. publicclass WritableComparable<t>extendsWritableComparable<T> { } 
D. publicinterfaceWritableComparable < t > extends WritableComparable < T > 

{ 
(5) ( DEE Writable RAK, 


A. ArrayWritable B. ArrayPrimitiveWritable 
C. MapWritable D. IntWritable 
2. 问答 题 


(1) 若 客户 端 发 现 有 Block 坏 掉 了 ,该 如 何 来 恢复 这 个 损坏 的 Block W? 

(2) 数据 完整 性 的 验证 有 哪 两 种 方法 ?它们 的 具体 实现 是 什么 ?它们 之 间 又 有 什么 
关系 ? 

(3) Hadoop 目前 支持 的 压缩 格式 有 哪 几 种 ,它们 有 什么 异同 ? 

(4) 序列 化 和 反 序列 化 的 定义 是 什么 ”它们 应 用 在 哪些 领域 ? 

(5) WritableComparator 提供 的 功能 有 哪些 ? 详细 描述 一 下 WritableComparable 接 
口 和 Comparator 的 具体 实现 。 

(6) Hadoop 中 ,并 没有 使 用 Java 自 带 的 基本 类 型 类 ,而 是 使 用 自己 开发 的 类 ,都 包括 
哪些 ? 分 别 对 应 Java 的 哪 种 基本 类 型 ? 

(7) 详细 讲述 一 下 SequenceFile 和 MapFile 读 写 操作 的 具体 实现 。 


认识 MapReduce 编程 模型 


本 章 提 要 


在 学 习 了 HDFS 之 后 ,基本 掌握 了 Hadoop 集群 对 文件 的 存储 和 读 取 等 操作 。 接 下 来 ， 
就 要 对 这 些 庞 大 的 数据 进行 处 理 , 从 中 提取 出 需要 的 有 价值 的 信息 。 这 就 需要 用 到 本 章 的 
内 容 一 一 MapReduce 编程 模型 。 

MapReduce 源 于 Google 的 一 篇 论文 , 它 充 分 借鉴 了 分 而 治之 的 思想 ,将 一 个 数据 处 理 
过 程 拆 分 成 主要 的 Map( 映 射 ) 与 Reduce( 化 简 ) 两 步 。 这 样 ,即使 用 户 不 懂 分 布 式 计算 框架 
的 内 部 运行 机 制 ,只 要 能 用 Map 和 Reduce 的 思想 描述 清楚 要 处 理 的 问题 , 即 编写 map() 和 
reduce( ) 函数 ,就 能 轻松 地 使 问题 的 计算 实现 分 布 式 , 并 在 Hadoop 上 运行 。 

本 章 要 系统 的 学 习 MapReduce 编程 模型 ,首先 要 简单 了 解 MapReduce 编程 模型 ,接着 
通过 WordCount 实例 为 大 家 展示 MapReduce 简单 的 程序 代码 ,以 及 初步 的 介绍 一 下 
MapReduce 程序 的 编写 。 


7.1 MapReduce 编程 模型 简介 


简单 来 说 ,MapReduce 编程 模型 就 是 一 个 用 于 进行 大 数据 量 计算 的 并 行 分 步 式 文件 处 
理 模 型 。 但 在 现 阶段 而 言 ,对 许多 开发 人 员 来 说 ,并 行 计算 还 是 一 个 陌生 、 复 杂 、 遥 不 可 及 的 
事物 。 如 果 涉 及 分 布 式 计算 的 问题 ,就 会 变 得 更 加 棘手 。MapReduce 就 是 一 种 简化 并 行 计 
算 的 编程 模型 , 它 的 设计 目标 是 方便 编程 人 员 在 不 熟悉 分 布 式 并 行 编程 的 情况 下 ,将 自己 的 
程序 运行 在 分 布 式 系统 上 。 它 向 上 层 用 户 提供 接口 , 屏 项 了 并 行 计算 ,特别 是 分 布 式 处 理 的 
诸多 细节 问题 ,让 那些 没有 多 少 并 行 计 算 经 验 的 开发 人 员 也 可 以 很 方便 的 开发 并 行 应 用 ,从 
而 避免 了 “重复 发 明 轮子 ”的 问题 。 这 也 就 是 MapReduce 的 价值 所 在 ,通过 简化 编程 模型 ， 
降低 了 开发 并 行 应 用 的 门槛 ,并 且 大 大 减轻 了 程序 员 在 开发 大 规模 数据 应 用 时 的 编程 负担 。 
相对 于 现在 普通 的 开发 而 言 ,并 行 计算 需要 更 多 的 专业 知识 ,有 了 MapReduce, 并 行 计算 就 
可 以 得 到 更 广泛 的 应 用 。 


7.1.1 什么 是 MapReduce 


MapReduce 采用 的 是 “分 而 治之 ”的 思想 ,把 对 大 规模 数据 集 的 操作 ,分 发 给 一 个 主 节 
点 管理 下 的 各 子 节点 共同 完成 ,接着 通过 整合 各 子 节点 的 中 间 结 果 , 得 到 最 终 的 结果 。 简 言 
之 ,MapReduce 就 是 “分 散 任务 ,汇总 结果 ”。 


从 MapReduce 自身 的 命名 特点 可 以 看 出 ,MapReduce 有 两 个 阶段 组 成 : Map 和 
Reduce。 用 户 只 需 编 写 map() 和 reduce() 两 个 函数 , 即 可 完成 简单 的 分 布 式 程序 的 设计 。 

map() 负 责 将 任务 分 散 成 多 个 子 任务 ,map() 函 数 以 key/value( 键 / 值 ) 对 作为 输 
入 ,产生 另外 一 系列 key/value 对 作为 中 间 输 出 写 入 本 地 磁盘 。MapReduce 框架 会 自动 
将 这 些 中 间 数 据 按照 key 值 进行 聚集 , 且 key 值 相同 的 数据 被 统一 交 给 reduce 函数 
处 理 。 

reduce() 负 责 把 分 解 后 多 个 任务 的 处 理 结果 汇总 起 来 。reduce() 函 数 以 key 及 对 应 的 
value 列表 作为 输入 ,将 key 值 相同 的 value 值 合 并 后 ,产生 另 一 组 key/value 对 作为 最 终结 
果 输 出 写 入 到 HDFS。 

至 于 在 并 行 编程 中 的 其 他 种 种 复杂 问题 ,如 分 布 式 存储 .工作 调度 .负载 均衡 、 容 错 处 
理 、 网 络 通信 等 , 均 由 MapReduce 框架 负责 处 理 ,可 以 不 用 程序 员 操 心 。 值 得 注意 的 是 ,用 
MapReduce 来 处 理 的 数据 集 (或 任务 ) 必 须 具备 这 样 的 特点 : 待 处 理 的 数据 集 可 以 分 解 成 许 
多 小 的 数据 集 , 且 每 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 


7.1.2 MapReduce 程序 的 设计 方法 


下 面 通 过 MapReduce 中 的 入 门 程序 一 一 WordCount 为 例 介绍 一 下 程序 的 设计 方法 。 

“hello world" 程 序 是 大 家 学 习 任 何 一 门 编程 语言 编写 的 第 一 个 人 门 程序 。 它 简单 且 易 
于 理解 ,能 够 帮助 大 家 快速 入 门 。 同 样 ,分 布 式 处 理 框 架 也 有 自己 的 “hello world” 程 序 : 
WordCount。 它 完成 的 功能 是 统计 输入 文件 中 的 每 个 单词 出 现 的 次 数 。 在 MapReduce 中 
的 编写 如 下 ( 伪 代 码 ) 。 

Map 部 分 : 

//key: 字 符 串 偏 移 量 

//value: 文 件 中 一 行 字符 串 的 内 容 

map (String key, String value) : 

1 PHS EAE EB SY Hl — a] 

words=SplitIntoTokens (value); 


// 将 一 组 单词 中 的 每 个 单词 赋值 给 w 


for each word w in words: 
// 输 出 key 和 value (key 为 w,value 为 "1") 
EmitIntermediate (w,"1"); 


Reduce 部 分 : 


//key: 一 个 单词 
//value: 该 单词 出 现 的 次 数列 表 
reduce (String key, Iterator values): 
int result=0; 
for each v in values: 
result +=StringToInt (v); 
Emit (key, IntToString(result)); 


用 户 在 程序 编写 完成 后 ,按照 一 定 的 规则 制定 程序 的 输入 和 输出 目录 ,并 提交 到 
Hadoop 集群 中 。 作 业 在 Hadoop 中 的 执行 过 程 如 图 7-1 所 示 。Hadoop 将 输入 数据 切 分 
成 若干 个 输入 分 片 (split) ,保证 并 行 计算 的 效率 ;在 map 阶段 ,数据 经 过 map O 函数 的 处 
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理 ,转化 为 key/value 的 形式 输出 ;在 shuffle 阶段 基于 排序 的 方法 会 将 key 相同 的 数据 聚 
集 在 一 起 ;最 后 的 reduce 阶段 会 调用 reduce() 函 数 将 key 值 相同 的 数据 合并 ,并 将 结果 


输出 。 
split map shuffle reduce 
I 1 
I 1 I 1 
wish 1 
ae 1 wish 1 
I wish to wish ak i wish 1 
the wish you cake j wish 1 
wish to wish wish 1 
you 1 wish 1 
wish 1 wish 1 
to 1 wish 1 
wish 1 wish 1 
wish 1 
wish 1 
wish 1 
1 2 
But 1 i 
if i a : wish n 
you 1 to 1 a à 
But if you wish wish 1 to 1 s 3 
the wish the the 1 | = ==> | yo 
witch wishes wish 1 the 1 a i 
the 1 the 1 wh «1 
witch 1 the 1 yoa 
wishes 1 the 1 wishes 1 
won't 1 
you 1 
you 1 
I 1 you 1 
won't 1 
But 
wish 1 > i 
the 1 if 1 
wish 1 
you 1 witch 1 
to 1 
wish 1 wishes 1 
wont 1 


图 7-1 WordCount 执行 过 程 


7.1.3 新 旧 MapReduce 简介 


在 MapReduce 编程 模型 的 发 展 过 程 中 ,经 历 了 两 个 版 本 : MRvl 和 YARN/MRv2。 这 
一 小 节 将 为 大 家 简单 介绍 一 下 新 旧 两 个 版 本 的 变化 。 

MRv1: 第 一 代 MapReduce 计算 框架 。 它 由 编程 模型 (programming model) 和 运行 时 
环境 (runtime environment) 两 部 分 组 成 。 它 的 基本 编程 模型 是 将 问题 抽象 成 Map 和 
Reduce 两 个 阶段 。 其 中 ,Map 阶段 将 输入 数据 解析 成 key/value ZEA map0 〇 函数 处 理 
后 ,再 以 key/value 的 形式 输出 到 本 地 目录 ;Reduce 阶段 则 将 key 相同 的 value 进行 归 约 处 
理 , 并 将 最 终结 果 写 到 HDFS 上 。 它 的 运行 时 环境 由 JobTracker 和 TaskTracker 两 类 服务 
组 成 。 其 中 ,JobTracker 负责 资源 管理 和 所 有 作业 的 控制 ,而 TaskTracker 负责 接收 来 自 


JobTracker 的 命令 并 执行 它 。 

YARN/MRv?2: 针对 MRv1 中 的 MapReduce 在 扩展 性 和 多 框架 支持 方面 的 不 足 , 提 出 
了 全 新 的 资源 管理 框架 YARN(Yet Another Resource Negotiator) 。 它 将 JobTracker 中 的 
资源 管理 和 作业 控制 功能 分 开 . 分别 由 两 个 不 同 进程 ResourceManager 和 
ApplicationMaster 实现 。 其 中 , ResourceManager 负责 所 有 应 用 程序 的 资源 分 配 ,而 
ApplicationMaster 仅 负 责 管理 一 个 应 用 程序 。 在 后 面 的 章节 中 将 介绍 YARN 平台 。 


7.1.4 Hadoop MapReduce 架构 


在 MapReduce 架构 中 存在 着 与 HDFS 相同 的 结构 , 即 一 个 主 节点 ,多 个 子 节点 。 其 
中 , 主 节点 为 “ResourcesManager”, 它 控制 着 整个 集群 的 计算 资源 分 配 (内 存 、.CPU 等 ); 子 
节点 为 “NodeManger”, 它 为 实际 的 计算 节点 。 

最 新 的 MapReduce 最 基本 的 设计 思想 是 将 资源 管理 和 作业 调度 /监控 分 成 两 个 独立 的 
进程 。 在 该 解决 方案 中 包含 两 个 组 件 : 全 局 的 ResourceManager(RM) 和 与 每 个 应 用 相关 
的 ApplicationMaster(AM)。 这 里 的 “应 用 ” 指 一 个 单独 的 MapReduce 作业 或 者 DAG 作 
Mk. RM 与 NodeManager(NM, 每 个 节点 一 个 ) 共 同 组 成 整个 数据 计算 框架 。RM 是 系统 
中 将 资源 分 配给 各 个 应 用 的 最 终 决 策 者 。AM 实际 上 是 一 个 具体 的 框架 库 , 它 的 任务 是 与 
RM 协商 获取 应 用 所 需 资源 和 与 NM 合作 ,以 完成 执行 和 监控 的 任务 。 

如 图 7-2 所 示 , 客 户 端 向 ResourceManager 提交 一 个 MapReduce 作业 , ResourceManager 
会 在 一 个 NodeManger 生成 对 应 这 个 作业 的 App Master, 接 着 这 个 App Master 会 向 
ResourceManager 去 申请 执行 这 个 job 需要 的 计算 资源 (container), 然 后 执行 相应 的 
MapReduce 作业 。 
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图 7-2 MapReduce 架构 
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7.1.5 MapReduce 的 优 缺 点 


1. MapReduce 在 处 理 数 据 方面 的 优点 

(1) 开发 简单 。 得 益 于 MapReduce 的 编程 模型 ,用 户 可 以 不 用 考虑 进程 间 通 信 、 套 接 
字 编 程 , 无 须 非常 高 深 的 技巧 ,只 需要 实现 一 些 非常 简单 的 逻辑 ,其 他 的 交 由 MapReduce it 
算 框架 去 完成 ,大 大 简化 了 分 布 式 程序 的 编写 难度 。 

(2) 可 扩展 性 强 。 同 HDFS 一 样 , 当 集群 资源 不 能 满足 计算 需求 时 ,可 以 通过 增加 节点 
的 方式 达到 线性 扩展 集群 的 目的 。 

(3) 容错 性 强 。 对 于 节点 故障 导致 的 作业 失败 ,MapReduce 计算 框架 会 自动 将 作业 分 
配 到 正常 的 节点 重新 执行 ,直到 任务 完成 。 这 些 对 于 用 户 来 说 都 是 透明 的 。 

2. MapReduce 在 处 理 数据 方面 的 缺点 

(1) 不 适合 事务 /单一 请 求 处 理 : MapReduce 绝对 是 一 个 离线 批 处 理 系统 ,对 于 批 处 理 
数据 应 用 得 很 好 。MapReduce( 不 论 是 Google 的 ,还 是 Hadoop 的 ) 是 用 于 处 理 不 适合 传统 
数据 库 的 海量 数据 的 理想 技术 ,但 它 又 不 适合 事务 /单一 请 求 处 理 。 

(2) 性 能 问题 。 想 想 N 个 map 实例 产生 M 个 输出 文件 ,每 个 最 后 由 不 同 的 reduce 实 
例 处 理 ,这 些 文件 写 到 运行 map 实例 机 器 的 本 地 硬盘 。 如 果 N 是 1000,M 是 500,map 阶 
段 产 生 500 000 个 本 地 文件 。 当 reduce 阶段 开始 ,500 个 reduce 实例 每 个 需要 读 入 1000 个 
文件 ,并 用 类 似 FTP 协议 把 它 要 的 输入 文件 从 map 实例 运行 的 节点 上 pull 取 过 来 。 假 如 
同时 有 数量 级 为 100 的 reduce 实例 运行 ,那么 2 个 或 2 个 以 上 的 reduce 实例 同时 访问 同一 
个 map 节点 来 获取 输入 文件 是 不 可 避免 的 , 即 导致 大 量 的 硬盘 查找 ,使 有 效 的 硬盘 运转 速 
度 至 少 降低 20% 。 

(3) 不 适合 一 般 Web 应 用 。 大 部 分 Web 应 用 ,只 是 对 数据 进行 简单 的 访问 ,每 次 请 求 
处 理 所 耗 费 的 资源 其 实 非 常 小 , 它 的 问题 是 高 并 发 ,所 以 要 采用 负载 均衡 技术 来 分 担负 载 。 
只 有 在 特殊 情况 下 才 可 能 用 MR ,如 创建 索引 ,进行 数据 分 析 等 。 
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Spark 最 大 的 优势 在 于 速度 ,在 迭代 处 理 计算 方面 比 Hadoop 快 100 倍 以 上 ,Spark 
是 基于 内 存 , 是 云 计 算 领 域 的 继 Hadoop 之 后 的 下 一 代 的 最 热门 的 通用 的 并 行 计算 框架 
开源 项 目 , 尤 其 出 色 的 支持 Interactive Query、 流 计算 、 图 计算 等 。 

Spark 在 机 器 学 习 方面 有 着 无 与 伦比 的 优势 ,特别 适合 需要 多 次 迭代 计算 的 算法 。 
同时 Spark 拥有 非常 出 色 的 容错 和 调度 机 制 , 确 保 系 统 的 稳定 运行 ,Spark 目前 的 发 展 
理念 是 通过 一 个 计算 框架 集合 SQL, Machine Learning, Graph Computing, Streaming 
Computing 等 多 种 功能 于 一 个 项 目 中 ,具有 非常 好 的 易 用 性 。 


7.2 WordCount 编程 实例 


7.2.1 WordCount 的 设计 思路 


作为 MapReduce 的 人 门 实例 ,WordCount 与 MapReduce 的 编程 思想 结合 得 非常 紧密 
却 又 十 分 简单 。 大 致 思路 是 将 HDFS 上 的 文本 作为 输入 ,在 map 函数 中 完成 对 单词 的 拆 分 
输出 作为 中 间 结 果 ,并 在 reduce 函数 中 完成 对 每 个 单词 的 词 频 计数 。 

文本 作为 MapReduce 的 输入 ,MapReduce 会 将 文本 进行 切片 处 理 , 并 将 行 号 作为 输入 
键 值 对 的 键 ,文本 内 容 作 为 输出 的 值 ,经 过 map 函数 的 处 理 , 输 出 中 间 结 果 为 二 word,1 二 的 
JÉ. MapReduce 会 默认 按键 分 发 给 reduce 函数 , 问 问 打 麻 将 完成 计数 并 输出 最 后 结果 


<word, count>, 


7.2.2 编写 WordCount 代码 


1. 新 建 工程 

编写 MapReduce 程序 和 编写 普通 java 程序 没有 什么 不 同 ,都 需要 新 建 一 个 Java 工程 ， 
并 将 依赖 的 jar 包 引 入 。 

2. 完整 的 WordCount 代码 


public class WordCount { 
public static class TokenizerMapper 
extends Mapper< Object, Text, Text, IntWritable> { 
private final static IntWritable one=new IntWritable(1); 
private Text word=new Text (); 
public void map (Object key, Text value, Context context) throws IOException, 
InterruptedException { 
StringTokenizer itr=new StringTokenizer (value.toString()); 
while (itr.hasMoreTokens()) { 
word.set (itr.nextToken ()); 
context .write (word, one); 


public static class IntSumReducer 
extends Reducer< Text, IntWritable, Text, IntWritable> { 
private IntWritable result=new IntWritable(); 
public void reduce (Text key, Iterable< IntWritable> values,Context context) 
throws IOException, InterruptedException { 
int sum 0; 
for (IntWritable val : values) { 
sum +=val.get(); 
} 
result.set (sum) ; 


context.write (key, result); 
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public static void main (String[] args) throws Exception { 
Configuration conf=new Configuration (); 
String[] otherArgs=new GenericOptionsParser (conf, args) .getRemainingArgs (); 
if (otherArgs.length !=2) { 
System.err.println ("Usage: wordcount < in><out> "); 
System.exit (2); 
} 
Job job=new Job (conf, "word count"); 
job.setJarByClass (WordCount.class) ; 
job.setMapperClass (TokenizerMapper.class) ; 
job.setCombinerClass (IntSumReducer.class) ; 
job.setReducerClass (IntSumReducer.class) ; 


job.setOutputKeyClass (Text .class) ; 
job. setOutputValueClass (IntWritable.class) ; 


FileInputFormat .addInputPath (job, new Path (otherArgs[0])); 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 
System.exit (job.waitForCompletion(true) ? 0: 1); 


7.2.3 运行 程序 


在 程序 编写 完成 后 ,还 需要 将 代码 打包 成 jar 文件 并 运行 。 用 eclipse 自 带 的 打包 工具 
导出 为 wordcount. jar 文件 ,上 传 至 集群 任 一 节点 ,并 在 该 节点 执行 命令 : 


hadoop jar wordcount .jar hellohadoop.WordCount /user/test/input /user/test/output 


Hellohadoop 为 程序 的 包 名 ,WordCount 为 程序 的 类 名 ,/user/test/input 为 HDFS 存 
放 文 本 的 目录 (如 果 指 定 一 个 目录 为 MapReduce 输入 路 径 . 则 MapReduce 会 将 该 路 径 下 的 
所 有 文件 作为 输入 ;如 果 指 定 一 个 文件 , 则 MapReduce 只 会 将 该 文件 作为 输入 ) ,Vuser/ 
test/output 为 作业 的 输出 路 径 (该 路 径 在 作业 运行 前 必须 不 存在 ) 。 

命令 执行 后 ,屏幕 会 打出 有 关 任 务 进度 的 日 志 : 

15/12/14 00:53:23 INFO mapreduce.Job: Running job: job_1442977437282_0466 

15/12/14 00:53:34 INFO mapreduce.Job: Job jjob_1442977437282_0466 running in uber mode : false 

15/12/14 00:53:34 INFO mapreduce.Job: map 0% reduce 0% 


15/12/14 00:53:46 INFO mapreduce.Job: map 100% reduce 0% 
15/12/14 00:53:54 INFO mapreduce.Job: map 100% reduce 100% 


当 任 务 完 成 后 ,屏幕 会 输出 相应 的 日 志 : 


15/12/14 00:53:55 INFO mapreduce.Job: Job job_1442977437282_0466 completed successfully 
15/12/14 00:53:55 INFO mapreduce.Job: Counters: 49 


接 下 来 我 们 查看 输出 目录 : 
hadoop fs- 1s/user/test/output 
会 看 到 : 


-rw-r--r-- 2 zkpk supergroup 0 2015- 12- 14 00:53/user/test/output/_SUCCESS 
-rw-r--r-- 2 zkpk supergroup 3721 2015- 12- 14 00:53/user/test/output3/part- r- 00000 


其 中 ,_SUCCESS 文件 是 一 个 空 的 标志 文件 , 它 标 志 该 作业 成 功 完成 ,而 结果 则 存放 在 
part-r-00000。 执 行 命令 : 


hadoop fs- cat/user/test/output/part- r- 00000 


得 到 结果 : 


s 
3 
or nN WF 


7.2.4 代码 讲解 


大 家 看 到 要 写 一 个 mapreduce 程序 ,需要 实现 map 函数 和 reduce 函数 。 下 面 看 看 map 
的 方法 : 
public void map (Object key, Text value, Context context) throws IOException, 
InterruptedException {...} 
这 里 有 三 个 参数 ,前面 两 个 Object key. Text value 就 是 输入 的 key 和 value, 第 三 个 参 
数 Context context 是 可 以 记录 输入 的 key 和 value。 例 如 ,context. write (word, one) ;此 
Sb context 还 会 记录 map 运算 的 状态 。 
对 于 reduce 函数 的 方法 : 
public void reduce (Text key, Iterable < IntWritable > values, Context context) throws 
IOException, InterruptedException {...} 
reduce 函数 的 输入 也 是 一 个 key/value 的 形式 ,不 过 它 的 value 是 一 个 迭代 器 的 形式 
Iterable 一 IntWritable 二 values。 也 就 是 说 ,reduce 的 输入 是 一 个 key, 对 应 一 组 的 值 value. 
reduce 也 有 context, 和 map 的 context 作用 一 致 。 
至 于 计算 的 迎 辑 就 要 程序 员 自 己 去 实现 了 。 
下 面 就 是 main 函数 的 调用 了 ,这 个 需要 详细 讲述 下 ,首先 是 : 


Configuration conf=new Configuration (); 


运行 mapreduce 程序 前 都 要 初始 化 Configuration ,该 类 主要 是 读 取 mapreduce 系统 配 
置信 息 ,这 些 信息 包括 hdfs 和 mapreduce, 也 就 是 安装 hadoop 时 候 的 配置 文件 。 例 如 ， 
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core-site, xml、hdfs-site. xml 和 mapred- site. xml 等 文件 里 的 信息 。 理 解 这 个 问题 ,需要 深 


A 


4% mapreduce 计算 框架 。 某 个 程度 上 来 说 ,程序 员 开 发 mapreduce 时 只 是 在 填空 ,在 map 


函数 和 reduce 函数 里 编写 实际 进行 的 业务 逻辑 ,其 他 的 工作 都 是 交 给 mapreduce 框架 操作 的 。 
但 程序 员 要 告诉 它 怎 么 操作 ,如 hdfs 在 哪里 ,而 这 些 信息 就 在 conf 包 下 的 配置 文件 里 。 


接 下 来 的 代码 是 : 


String[] otherArgs=new GenericOptionsParser (conf, args) .getRemainingArgs (); 


if (otherArgs.length !=2) { 
System.err.println ("Usage: wordcount <in><out>"); 
System.exit (1); 

} 


让 语句 是 比较 好 理解 的 ,在 运行 WordCount 程序 时 一 定 有 两 个 参数 ,如 果 不 是 就 会 报 


错 退 出 。 至 于 第 一 句 里 的 GenericOptionsParser 类 , 它 是 用 来 解释 常用 的 hadoop 命令 ,并 
根据 需要 为 Configuration 对 象 设置 相应 的 值 ,实际 开发 中 却 不 太 常用 它 , 而 是 通过 类 实现 
Tool 接口 ,然后 在 main 函数 里 使 用 ToolRunner 运行 程序 ,而 ToolRunner 内 部 会 调用 


GenericOptionsParser, 


接 下 来 的 代码 是 : 


Job job= new Job(conf, "word count"); 

job. setJarByClass (WordCount.class) ; 

job. setMapperClass (TokenizerMapper.class) ; 
job. setCombinerClass (IntSumReducer.class) ; 
job. setReducerClass (IntSumReducer.class) ; 


第 一 行 就 是 在 构建 一 个 job, E mapreduce 框架 里 ,一 个 mapreduce 任务 也 叫 


mapreduce 作业 ,或 者 称 为 一 个 mapreduce 的 job ,而 具体 的 map 和 reduce 运算 就 是 task, 


这 里 


虽然 


构建 了 一 个 job, 构建 时 有 两 个 参数 ,一 个 是 conf , 另 一 个 就 是 这 个 job 的 名 称 。 
第 二 行 是 装载 程序 员 编 写 好 的 计算 程序 。 例 如 ,此 处 装载 的 程序 类 名 是 WordCount。 
编写 mapreduce 程序 只 需要 实现 map 函数 和 reduce 函数 ,但 是 实际 开发 中 要 实现 三 个 


类 ,第 三 个 类 是 为 了 配置 mapreduce 如 何 运 行 map 和 reduce 函数 。 准 确 地 说 ,就 是 构建 一 
个 mapreduce 能 执行 的 job。 例 如 ,WordCount 类 。 


后 面 


WE 


的 类 


第 三 行 和 第 五 行 是 装载 map 函数 和 reduce 函数 实现 类 。 第 四 行 是 装载 Combiner 类 ， 
UE mapreduce 运行 机 制 时 会 详 述 。 本 例 去 掉 第 四 行 也 没有 关系 ,只 是 使 用 了 第 四 行 , 理 
运行 效率 会 更 高 。 
接 下 来 的 代码 是 : 


job.setOutputKeyClass (Text .class); 
job. setOutputValueClass (IntWritable.class) ; 


这 个 是 定义 输出 的 key/value 的 类 型 ,也 就 是 最 终 存储 在 hdfs 上 结果 文件 的 key/value 
型 。 
最 后 的 代码 是 : 


FileInputFormat .addInputPath (job, new Path (otherArgs[0])); 


FileoutputFormat.setOutputPath (job, new Path (otherArgs[1])); 

System.exit (job.waitForCompletion (true) ? 0 : 1); 

第 一 行 是 构建 输入 的 数据 文件 ;第 二 行 是 构建 输出 的 数据 文件 ;最 后 一 行 是 如 果 job 运 
行 成 功 ,程序 就 会 正常 退出 。 


7.3 MapReduce 的 编程 


本 节 将 详细 介绍 如 何 编写 一 个 MapReduce 作业 。Hadoop 支持 的 编程 语言 有 Java、 
C++ „Python 等 ,考虑 到 Hadoop 是 原生 支持 Java, 使 用 最 广 的 也 是 Java, 所 以 本 书 只 介绍 
MapReduce 的 Java 编程 。 

从 Hadoop 0. 20. 0 开始 ,Hadoop 提供 了 新 旧 两 套 MapReduce API。 新 API 在 旧 API 
基础 上 进行 了 封装 ,使 得 其 在 扩展 性 和 易 用 性 方面 更 好 。 旧 API 主要 存放 在 org. apache. 
hadoop. mapred ,而 新 的 API 存放 在 org. apache. hadoop. mapreduce 包 及 其 子 包 , 目 前 开发 
中 很 少 使 用 旧 API, 所 以 本 书 选用 新 的 API 进行 讲解 。 


7.3.1 配置 开发 环境 


开发 Hadoop 应 用 时 ,经 常 需要 在 本 地 运行 和 集群 运行 之 间 进 行 切换 。 事 实 上 ,可 能 在 
几 个 集群 上 工作 ,也 可 能 在 “ 伪 分 布 式 "集群 上 测试 。 伪 分 布 式 集群 是 其 守护 进程 运行 在 本 
机 的 集群 。 

应 对 这 些 变化 的 一 种 方法 是 使 Hadoop 配置 文件 包含 每 个 集群 的 连接 设置 ,并 且 在 运 
行 Hadoop 应 用 或 工具 时 指定 使 用 哪 一 个 连接 设置 。 最 好 的 做 法 是 ,把 这 些 文件 放 在 
Hadoop 安装 目录 树 之 外 ,以 便于 轻松 地 在 Hadoop 不 同 版 本 之 间 进 行 切换 ,从 而 避免 重复 
或 丢失 设置 信息 。 

为 方便 介绍 ,假设 目录 conf 包含 三 个 配置 文件 : hadoop-local. xml, hadoop-localhost. 
xml 和 hadoop-cluster. xml。 注 意 , 文 件 名 没有 特殊 要 求 ,这样 命 名 只 是 为 了 方便 打包 配置 
的 设置 。 

针对 默认 的 文件 系统 和 jobtracker,hadoop-local. xml 包含 默认 的 Hadoop 配置 ， 


<? xml version="1.0"? > 
<configuration> 
<property> 
<name> fs.default .name< /name> 
<value> file:///< /value> 
</property> 
<property> 
<name> mapred. job.tracker< /name> 
<value> local< /value> 
</property> 
</configuration> 


Hadoop-localhost. xml 文件 中 的 设置 指向 本 地 主机 上 运行 的 namenode 和 jobtracker: 


<?xml version="1.0"?> 


<configuration> 
<property> 
<name> fs.default .name< /name> 
<value> hdfs://localhost/< /value> 
</property> 
<property> 
<name> mapred.job.tracker< /name> 
<value> localhost :8021< /value> 
</property> 
</configuration> 


最 后 ,hadoop-cluster. xml 文件 包含 集群 上 namenode 和 jobtracker 的 详细 信息 。 通 常 
会 以 集群 的 名 称 来 命名 这 个 文件 ,而 不 是 这 里 显示 的 那样 ,用 cluster 泛 指 : 


<?xml version="1.0"?> 
<configuration> 
<property> 
<name> fs.default .name< /name> 
<value> hdfs://namenode/ < /value> 
</property> 
<property> 
<name>mapred.job.tracker< /name> 
<value> localhost :8021< /value> 
</property> 
</configuration> 


还 可 以 根据 需要 为 这 些 文件 添加 其 他 配置 信息 。 例 如 ,如 果 想 为 特定 的 集群 设 定 
Hadoop 用 户 名 , 则 可 以 在 相应 的 文件 中 进行 这 些 设置 。 
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设置 用 户 标 识 


在 HDFS 中 ,可 以 通过 在 客户 端 系统 上 运行 whoami 命令 来 确定 Hadoop 用 户 标 识 
(identity)。 类 似 , 组 名 (group name) 来 自 groups 命令 的 输出 。 

如 果 Hadoop 用 户 标识 不 同 于 客户 机 上 的 用 户 账号 ,可 以 通过 设置 hadoop. job. ugi 属 
性 来 显示 设 定 Hadoop 用 户 名 和 组 名 。 用 户 名 和 组 名 由 一 个 逗号 分 隔 的 字符 串 来 表示 , 例 
4 „preston, directors.inventors 表示 用 户 名 preston, 组 名 是 directors 和 inventors. 

可 以 使 用 相同 的 语法 设置 HDFS 网 络 接口 (该 接口 通过 设置 dfs. web. ugi 来 运行 ) 
的 用 户 标识 。 在 默认 情况 下 ,webuser 和 webgroup 不 是 超级 用 户 。 因 此 ,不 能 通过 网 络 
接口 来 访问 系统 文件 。 

注意 ,在 默认 情况 下 ,系统 没有 认证 机 制 。 


有 了 这 些 设置 , 便 可 以 轻松 地 通过 -conf 命令 行 开关 来 使 用 各 种 配置 。 例 如 ,下 面 的 命 
令 显 示 了 一 个 在 伪 分 布 式 模式 下 运行 于 本 地 主机 上 的 HDFS 服务 器 上 的 目录 列表 : 


%hadoop fs- conf conf/hadoop- localhost.xml-1s 

Found 2 items 

drwxr-xr-x- tom supergroup 0 2015- 12- 18 10:32/user/tom/input 

drwxr-xr-x- tom supergroup 0 2015- 12- 18 13:09/user/tom/output 

如 果 省 略 -conf 选项 ,可 以 从 conf ¥ A at FY ¥ HADOP_INSTALL 中 找到 Hadoop 的 
配置 信息 。 至 于 是 独立 模式 还 是 伪 分 布 式 集群 模式 , 则 取决 于 具体 的 设置 。 

Hadoop 自 带 的 工具 支持 -conf 选项 ,也 可 以 直接 用 程序 (如 运行 MapReduce 作业 的 程 
序 ) 通 过 使 用 Tool 接口 来 支持 -conf 选项 。 


7.3.2 编写 Mapper 类 


Mapper 类 作为 map 函数 的 执行 者 ,对 于 整个 MapReduce 作业 有 着 很 重要 的 作用 ,但 
我 们 不 需要 自己 实例 化 Mapper 类 ,只 需要 继承 org. apache. hadoop. mapreduce. Mapper 
类 ,并 实现 map 方法 。 

Mapper 类 有 setup, map, cleanup 和 run 四 个 方法 。 其 中 ,setup 一 般 是 用 来 进行 一 
些 map 前 的 准备 工作 ;map 则 承担 对 键 值 对 进行 处 理 的 工作 ;cleanup 是 收尾 工作 (如 关 
闭 文 件 或 者 执行 map 后 的 键 值 对 分 发 等 );run 方法 提供 了 setup-map-cleanup 的 执行 
模板 。 

Hadoop 自 带 了 一 些 Mapper 类 的 实现 ,如 InverseMapper 类 和 TokenCounterMapper 
类 。InverseMapper 类 的 作用 是 调换 键 值 对 的 顺序 再 原样 输出 ,TokenCounterMapper 类 的 
作用 和 WordCount 中 的 Mapper 类 的 作用 是 一 样 的 ,单词 计数 ,读者 可 以 根据 需要 选择 。 
如 果 需 要 自己 编写 Mapper 类 时 ,用 户 只 需要 继承 Mapper 类 并 实现 其 中 的 map 方法 即 可 。 
实现 Mapper 类 的 示例 如 下 。 

publicstaticclassTestMapper 

extends Mapper< Object, Text, Text, IntWritable> { 

publicvoid map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
/* 
* 编写 自己 的 map 方 法 


x*/ 


2 
在 继承 Mapper 类 的 同时 ,也 必须 制定 Mapper 类 的 泛 型 : 
public static class TokenizerMapper extends Mapper< Object, Text, Text, IntWritable> 


此 处 , 泛 型 的 作用 是 指定 map 方法 的 输入 键 值 对 的 类 型 和 输出 键 值 对 的 类 型 ,格式 为 
二 输入 键 值 对 键 的 类 型 ,输入 键 值 对 值 的 类 型 输出 键 值 对 键 的 类 型 ,输出 键 值 对 值 的 类 型 二 ， 
当 实 现 了 自己 的 逻辑 后 ,使 用 context 对 象 的 write 方法 进行 输出 : 


context .write (key, value) ; 


context 对 象 保 存 了 作业 运行 的 上 下 文 信息 ,如 作业 配置 信息 InputSplit 信息 、 任 务 
ID 等 。 
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7.3.3 编写 Reducer 类 


编写 Reduce 类 同 编写 Mapper 类 一 样 ,只 需要 继承 org. apache. hadoop. mapreduce. 
Reducer 类 ,并 根据 需要 实现 Reduce 函数 即 可 。 

Reducer 类 也 有 setup、map、cleanup 和 run 四 个 方法 。 其 中 ,setup 一 般 是 用 来 进行 一 
JE reduce 前 的 准备 工作 ;reduce 则 承担 对 键 值 对 进行 处 理 的 工作 ;cleanup 是 收尾 工作 (如 
关闭 文件 或 执行 reduce 后 的 键 值 对 分 发 等 ) ;run 方法 提供 了 setup-reduce-cleanup 的 执行 
模块 。 

在 继承 Reducer 的 同时 ,还 需要 指定 Reducer 类 的 泛 型 : 


public static class TokenizerReducer extends Reducer< Text, IntWritable, Text, IntWritable> 


此 处 泛 型 的 作用 是 指定 reduce 方法 的 输入 键 值 对 (中 间 结 果 ) 的 类 型 和 输出 键 值 对 (最 
后 结果 ) 的 类 型 ,格式 为 二 输入 键 值 对 键 的 类 型 ,输入 键 值 对 值 的 类 型 ,输出 键 值 对 键 的 类 
型 ,输出 键 值 对 值 的 类 型 二 >。 代码 如 下 : 
publicstaticclassTestReducer 
extends Reducer< Text, IntWritable, Text, IntWritable> { 
publicvoid reduce (Text key, Iterable< IntWritable>values, Context context) 
throws IOException, InterruptedException { 
/* 
* 编写 自己 的 reduce Wi 


*»*/ 


} 
实现 了 自己 的 逻辑 后 ,同样 通过 context 的 write 方法 进行 输出 ,注意 输出 类 型 需要 和 
泛 型 一 致 ,否则 会 报错 。 如 下 : 


context .write (key, value) ; 


与 map 函数 不 同 的 是 ,reduce 函数 接受 的 values 参数 类 型 为 Tterable, 该 对 象 经 过 聚合 
后 的 中 间 结 果 需 要 通过 迭代 的 方式 对 其 进行 处 理 , 如 下 : 


Iterator< Text> valueList=values.iterator () 7 


7.3.4 编写 main rR 


在 上 面 的 工作 都 做 完 后 , 剩 下 的 工作 就 是 编写 main 函数 。main 函数 主要 用 于 配置 作 
业 和 提交 作业 。 下 列 代码 是 一 个 最 简单 的 main 函数 。 


public class TestMain { 
public static void main(String[] args) throws Exception { 
Configuration conf=new Configuration (); 
Job job= new Job (conf, "word count"); 
// 指 定 了 main 函数 所 在 的 类 
job.setJarByClass (TestMain.class) ; 


// 指 定 了 Mapper % 


job.setMapperClass (TestMapper.class) ; 

// 指 定 了 Reducer % 

job.setReducerClass (TestReducer.class) ; 

// 设 置 reduce() 函 数 输 出 key 的 类 

job. setOutputKeyClass (Text .class) ; 

// 设 置 reduce () 函 数 输出 value 的 类 
job.setOutputValueClass (IntWritable.class) ; 

// 指 定 输入 路 径 

FileInputFormat.addInputPath (job, new Path (args [0])); 
// 指 定 输出 路 径 

FileOutputFormat .setOutputPath (job, new Path (args[1])) 
// 提 交 任 务 


System.exit (job.waitForCompletion(true) ? 0 : 1); 


} 


Configuration 类 代表 了 作业 的 配置 ,该 类 会 加 载 mapred-site. xml, hdfs-site. xml, 
core-site. xml, 而 Job 类 代表 了 一 个 作业 。Job 的 对 象 指定 作业 执行 规范 。 可 以 用 它 来 控制 
整个 作业 的 和 运行。 在 Hadoop 集群 上 运作 这 个 作业 时 ,要 把 代码 打包 成 一 个 JAR 文件 
(Hadoop 在 集群 上 发 布 这 个 文件 )。 不 必 明 确 指 定 JAR 文件 的 名 称 , 在 Job 对 象 的 
setJarByClass() 方 法 中 传递 一 个 类 即 可 ,Hadoop 利用 这 个 类 来 查找 包含 它 的 JAR 文件 , 进 
而 找到 相关 的 JAR 文件 。 

构造 Job 对 象 之 后 ,需要 指定 输入 和 输出 数据 的 路 径 。 调 用 FileInputFormat 类 的 静态 
方法 addInputPath() 来 定义 输入 数据 的 路 径 ,这 个 路 径 可 以 是 单个 的 文件 .一 个 目录 (此 时 ， 
将 目录 下 所 有 文件 当 作 输 入 ) 或 符合 特定 文件 模式 的 一 系列 文件 。 由 函数 名 可 知 ,可 以 多 次 
调用 addInputPath() 来 实现 多 路 径 的 输入 。 

调用 FileOutputFormat 类 中 的 静态 方法 setOutputPath() 来 指定 输出 路 径 ( 只 能 有 一 
个 输出 路 径 ) 。 这 个 方法 指定 的 是 reduce 函数 输出 文件 的 写 和 目录。 在 运行 作业 前 ,该 目 
录 是 不 应 该 存在 的 ,否则 Hadoop 会 报错 并 拒绝 运行 作业 。 这 种 预防 措施 的 目的 是 防止 数 
据 丢失 (如 果 长 时 间 运 行 的 作业 的 结果 被 意外 覆盖 ,那么 肯定 是 非常 恼人 的 ) 。 

接着 ,通过 setMapperClass() 和 setReducerClass() 指 定 map 类 型 和 reduce 类 型 。 

setOutputKeyClass() 和 setOutputValueClass() 控 制 map 和 reduce 函数 的 输出 类 型 ,正如 
本 例 所 示 ,这 两 个 输出 类 型 一 般 都 是 相同 的 。 如 果 不 同 , 则 通过 setMapOutputKeyClass() 和 
setMapOutputValueClass() 来 设置 map 函数 的 输出 类 型 。 

输入 的 类 型 通过 InputFormat 类 来 控制 ,本 例 中 没有 设置 ,因为 使 用 的 是 默认 的 
TextMapOutputKeyClass( 文 本 输入 格式 ) 。 

在 设置 定义 map 和 reduce 函数 的 类 之 后 .可 以 开始 运行 作业 。Job 中 的 
waitForCompletion() 方 法 提交 作业 并 等 待 执行 完成 。 该 方法 中 的 布尔 参数 是 个 详细 标识 ， 
所 以 作业 会 把 进度 写 到 控制 台 。 

waitForCompletion() 方 法 返回 一 个 布尔 值 ,表示 执行 的 成 (true) 败 (false) ,这 个 布尔 值 
被 转换 成 程序 退出 的 代码 0 或 者 1 。 

至 此 ,main 方法 完成 。 将 代码 导出 为 jar 包 , 执 行 命令 : 


hadoop jarXXX.jar XXX.TestMain arg0 argl 
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7.4 MapReduce 在 集群 上 的 运作 


7.4.1 作业 的 打包 和 启动 


本 地 作业 运行 器 使 用 单 JVM 运行 一 个 作业 ,只 要 作业 需要 的 所 有 类 都 在 类 路 径 
(classpath) 上 ,那么 作业 就 可 以 正常 运行 。 

在 分 布 式 的 环境 中 ,情况 稍微 复杂 一 些 。 开 始 时 作业 的 类 必须 打包 进 作业 的 JAR 文件 
中 并 发 送 给 集群 。Hadoop 通过 搜索 驱动 程序 的 类 路 径 自动 找到 作业 的 JAR 文件 ,该 类 路 
径 包 含 了 JobConf 或 Job 上 的 setarByClass() 方 法 中 设置 的 类 。 另 一 种 方法 ,如 果 想 通过 
文件 路 径 设置 一 个 指定 的 JAR 文件 ,可 以 使 用 setJar() 方 法 。 

1. 客户 端的 类 路 径 

由 hadoop jar 二 jar 记 设置 的 用 户 客户 端 类 路 径 由 以 下 几 个 部 分 组 成 : 

(1) 作业 的 JAR 文件 ; 

(2) 作业 JAR 文件 的 lib 目录 中 的 所 有 JAR 文件 以 及 类 目录 (如 果 自 定义 ); 

(3) HADOOP_CLASSPH 定义 的 类 路 径 ( 如 果 已 经 设置 ) 。 

这 也 解释 了 如 果 在 没有 作业 JAR(hadoop CLASSNAME) 情 况 下 使 用 本 地 作业 运行 器 
时 ,为 什么 必须 设置 HADOOP_CLASPATH 来 指明 依赖 类 和 库 。 

2. 任务 的 类 路 径 

在 集群 上 (包括 伪 分 布 式 模式 ) ,map 和 reduce 任务 在 各 自 的 JVM 上 运行 ,它们 的 类 路 
径 不 受 HADOOP_CLASSPATH 控制 。HADOOP_CLASSPATH 是 一 项 客户 端 设置 ,并 
针对 驱动 程序 的 JVM 的 类 路 径 进行 设置 。 

反之 ,用 户 任务 的 类 路 径 由 以 下 几 个 部 分 组 成 : 

(1) 作业 的 JAR 文件 ; 

(2) 作业 JAR 文件 的 lib 目录 中 包含 的 所 有 JAR 文件 以 及 类 目录 (如 果 定 义 ); 

(3) 使 用 -libjars 选项 或 DistributedCache 的 addFileToClassPath() 方 法 ( 老 版 本 的 
API) 或 Job( 新 版 本 的 APD 添 加 到 分 布 式 缓存 的 所 有 文件 。 

3. 打包 依赖 

给 定 这 些 不 同 的 方法 来 控制 客户 端 和 类 路 径 上 的 内 容 , 也 有 相应 的 操作 处 理 作 业 的 库 

(1) 将 库 解 包 和 重新 打包 到 作业 的 JAR; 

(2) 对 作业 的 JAR 的 目录 中 的 库 打包 ; 

G) 保持 库 和 作业 的 JAR 分 开 , 并 且 通 过 HADOOP_CLASSPATH 将 它们 添加 到 客 
户 端的 类 路 径 ,通过 -libjars 将 它们 添加 到 任务 的 类 路 径 。 

从 创建 的 角度 来 看 ,最 后 使 用 分 布 式 缓存 的 选项 是 最 简单 的 ,因为 依赖 不 需要 在 作业 的 
JAR 中 重新 创建 。 同 时 ,分 布 式 缓存 意味 着 在 集群 上 更 少 的 TAR 文件 转移 ,因为 文件 可 能 
缓存 在 任务 间 的 一 个 节点 上 。 

4, 启动 作业 

在 jar 包 存放 的 节点 执行 命令 : 


hadoop jarXxX.jar XXX.TestMain arg0 argl 


2 扩展 阅读 
作业 、 任 务 和 task attempt ID 


作业 ID 的 格式 包含 两 部 分 : jobtracker( 不 是 作业 ?开始 的 时 间 和 唯一 标识 此 作业 
的 由 jobtracker 维护 的 增 量 计 算 器 。 例 如 ,ID % job_200904110811_0002 的 作业 是 第 二 
个 作业 (0002, 作 业 ID 从 1 开始 ),jobtracker 在 2009 年 4 月 11 日 08:11 开始 运行 这 个 
作业 。 计 算 器 的 数字 前 面 由 0 开始 ,以 便于 作业 ID 在 目录 列表 中 进行 排序 。 然 而 ,计算 
器 达到 10000 时 ,不 能 重新 设置 ,导致 作业 ID 更 长 (这 些 ID 不 能 很 好 地 排序 ) 。 

任务 属于 作业 ,任务 ID 通过 替换 作业 ID 的 作业 前 缀 为 任务 前 级 ,然后 加 上 一 个 后 
级 表示 哪个 作业 里 的 任务 。 例 如 ,task-2e090411{3811-0002-m-000003 表示 ID 为 job_ 
200904110811-0002 的 作业 的 第 4 个 map 任务 (000003 ,任务 ID 从 0 开始 计数 )。 作 业 
的 任务 ID 在 初始 化 时 产生 。 因 此 ,任务 ID 的 顺序 不 必 是 任务 执行 的 顺序 。 

由 于 失败 或 推测 执行 ,任务 可 以 执行 多 次 ,所 以 为 了 标识 任务 执行 的 不 同 实例 ， 
taskattempt 都 会 被 指定 一 个 在 jobtracker 上 唯一 的 ID. 例如 ,attempt_2009041le811- 
0002-m-00Bee3-0 表示 正在 运行 的 task-200904110811-eee2-m-000003 任务 的 第 一 个 
attemp(0,attemptID 从 0 开始 计数 )。task attempt 在 作业 运行 时 根据 需要 分 配 ,所 以 
它们 的 顺序 代表 tasktracker 产生 并 运行 的 先后 顺序 。 

如 果 在 jobtracker 重启 并 恢复 运行 作业 后 ,作业 被 重启 ,那么 task attempt ID 中 最 
后 的 计数 值 将 从 1 000 递增 。 


7.4.2 MapReduce 的 Web 界面 


MapReduce 的 Web 界面 用 来 浏览 作业 信息 ,对 于 跟踪 作业 运行 进度 .查找 作业 完成 后 
的 统计 信息 和 日 志 非 常 有 用 。 可 以 通过 主 节 点 的 18088 端口 访问 Web 界面 。 

1. MapReduce 主页 面 介 绍 

主页 的 截屏 如 图 7-3 所 示 。 在 不 单 击 左 侧 选 项 栏 的 情况 下 ,该 界面 显示 的 是 正在 运行 、 
(成 功 地 ) 完 成 和 失败 的 作业 。 每 部 分 都 有 一 个 作业 表 , 其 中 每 行 显示 作业 的 ID .所 属 者 、 作 
业 名 和 进度 信息 。 

如 图 7-4 所 示 ,在 左 侧 单 击 *About”, 上 面 一 栏 显示 的 是 关于 集群 的 概要 信息 ,包括 集群 
的 负载 情况 和 使 用 情况 。 下 面 显 示 MapReduce 版 本 、Hadoop 版 本 等 信息 。 

如 图 7-5 所 示 , 单 击 左 侧 的 Nodes, 上 面 同样 显示 关于 集群 的 概要 信息 ， 
NodeManger 节点 的 详细 信息 。 

如 图 7-6 所 示 , 单 击 左 侧 的 Scheduler, 显 示 的 是 集群 的 资源 调度 信息 。 

2. 作业 页 面 

在 MapReduce 的 Web 主页 面 单 击 作业 ID 进入 作业 页 面 (如 图 7-7 所 示 )。 页 面 上 显 
示 的 是 作业 的 摘要 ,包括 一 些 基本 信息 ,例如 作业 的 拥有 者 .作业 名 、 作 业 的 状态 和 作业 运行 
时 间 。 若 在 作业 的 状态 为 Running( 即 在 作业 的 运行 期 间 ) , 单 击 图 7-7 上 的 TrackingURL 


下 面 则 显示 


All Applications 


图 7-3 MapReduce 的 Web 主 界面 
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图 7-5 单 击 Nodes 


可 查看 作业 的 运行 细节 ,如 图 7-8 所 示 。 


图 7-7 作业 页 面 
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图 7-8 作业 的 运行 细节 


图 7-8 显示 了 作业 进行 到 了 哪个 阶段 ,每 个 阶段 起 了 多 少 个 map(reduce) 等 信息 。 
7.4.3 获取 结果 


一 旦 作业 完成 ,有 许多 方法 可 以 获取 结果 。 每 个 reducer 产生 一 个 输出 文件 ,因此 在 输 
出 目录 中 会 有 多 个 部 分 文件 (part file) ,命名 为 part-00000 、part-00001… 依 次 递增 。 这 些 文 
件 是 MapReduce 程序 的 输出 结果 。 同 时 在 输出 目录 下 还 有 生成 名 为 _SUCCESS 的 文件 ， 
该 文件 为 程序 运行 成 功 的 标志 空 文 件 。 

正如 文件 名 所 示 ,这些 *part" 文 件 可 以 认为 是 输出 目录 文件 的 一 部 分 。 如 果 输 出 文件 
很 大 ,那么 把 文件 分 为 多 个 part 文件 很 重要 ,这 样 才能 使 多 个 reducer 并 行 工作 。 通 常情 况 
下 ,如 果 文 件 采用 这 种 分 割 形式 ,使 用 起 来 仍然 很 方便 。 例 如 ,作为 另 一 个 MapReduce 作业 
的 输入 。 在 某 些 情况 下 ,可 以 探索 多 个 分 割 文件 的 结构 来 进行 map 端 连 接 操 作 ,或 执行 一 
个 MapFile 的 查找 操作 。 


本 章 小 结 


本 章 主 要 分 三 部 分 讲解 MapReduce 编程 模型 ,第 一 部 分 为 MapReduce 模型 简介 ,第 二 
部 分 为 简单 的 MapReduce 编程 介绍 ,第 三 部 分 为 MapReduce 在 集群 上 的 运作 。 

在 第 一 部 分 中 ,我 们 学 习 了 : 

(1) MapReduce 的 基本 概念 和 架构 ; 

(2) MapReduce 程序 的 设计 方法 ; 

(3) 新 旧 两 个 版 本 的 MapReduce 的 区 别 ; 

(4) Hadoop MapReduce 架构 ; 

(5) MapReduce 的 优 缺 点 。 

在 第 二 部 分 中 : 

(1) 通过 完整 的 WordCount 代码 初步 认识 了 MapReduce 的 完整 程序 ; 

(2) 系统 地 学 习 了 MapReduce 编程 过 程 中 的 三 个 部 分 (Mapper 类 、Reducer 类 、Main 
函数 ) 。 

在 第 三 部 分 ,我 们 学 习 了 : 

CD 作业 的 打包 和 启动 ; 

(2) MapReduce 的 Web 界面 ,通过 Web 查看 MapReduce 的 详细 信息 和 作业 的 进程 ; 

(3) 在 作业 结束 后 获取 结果 。 


习 题 
1. 填空 是 
(1) MapReduce 程序 由 Map 和 Reduce 两 个 阶段 组 成 ,用 户 只 需要 编写 和 
两 个 函数 即 可 完成 分 布 式 程序 的 设计 。 而 在 这 两 个 函数 中 是 以 作为 输入 
输出 的 。 

(2) 在 YARN/MRv2 计算 框架 中 提出 了 全 新 的 资源 管理 框架 。 它 将 
JobTracker 中 的 资源 管理 和 作业 控制 功能 分 开 , 分 别 由 和 两 个 不 同 进程 
实现 。 

(3) Mapper 类 和 Reducer 类 具有 š 四 个 方法 ， 
在 我 们 编写 的 过 程 中 只 需要 编写 方法 即 可 。 

2. 问答 题 


(1) 使 用 自己 的 语言 描述 WordCount 的 流程 。 
(2) 简 述 在 Hadoop 中 自 带 的 Mapper 类 : InverseMapper 类 和 TokenCounterMapper 
类 的 作用 。 
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本 章 提 要 


在 第 7 章 中 ,我 们 了 解 了 MapReduce 编程 模型 ,通过 最 基本 的 “WorldCould” 的 编写 ， 
学 习 了 在 MapReduce 程序 中 Map、Reduce、Main 这 三 个 类 的 编写 相信 大 家 对 
MapReduce 程序 的 编写 已 经 有 了 一 定 的 了 解 。 在 本 章 中 将 为 大 家 详细 地 介绍 MapReduce 
程序 的 运行 、 结 果 的 查看 ,以 及 在 编写 程序 时 适应 不 同情 况 将 会 用 到 的 不 同 的 输入 输出 类 
型 。 在 最 后 的 “Java API 解析 ”小 结 中 ,将 对 比 新 旧 两 版 API 为 大 家 深度 解析 作业 配置 与 提 
2% InputFormat 接口 的 设计 与 实现 ,OutputFormat 接口 的 设计 与 实现 .Mapper 类 与 
Reducer 类 。 


8.1 MapReduce 类 型 与 格式 


MapReduce 数据 处 理 模 型 非常 简单 : map 和 reduce 函数 的 输入 和 输出 是 键 / 值 对 
(key/value pair) 。 本 章 深入 讨论 MapReduce 模型 ,重点 介绍 各 种 类 型 的 数据 (从 简单 文本 
到 结构 化 的 二 进 制 对 象 ) 如 何在 MapReduce 中 使 用 。 


8.1.1 MapReduce 的 类 型 
Hadoop 的 MapReduce 中 ,map 和 reduce 函数 遵循 如 下 常规 格式 : 


map: (K1，V1) 一 1ist(k2，v2) 

reduce: (K2,1ist(v2))—>1ist(k3, v3) 

简单 来 说 ,就 是 reduce 函数 的 输入 类 型 必须 与 map 函数 的 输出 类 型 相同 。 

表 8-1 总 结 了 配置 选项 ,把 属性 分 为 可 以 设置 类 型 的 属性 和 必须 与 类 型 相 容 的 属性 。 

输入 数据 的 类 型 由 输入 格式 进行 设置 。 例 如 ,对 应 于 TextlnputFormat 的 键 类 型 是 
LongWritable, 值 类 型 是 Text。 其 他 的 类 型 通过 调用 Job 上 的 方法 来 进行 显 式 设置 。 如 果 
没有 显 式 设置 ,中 间 的 类 型 默认 为 (最 终 的 ) 输 出 类 型 ,也 就 是 默认 值 LongWritable 和 
Text。 因 此 ,如 果 K2 与 K3 是 相同 类 型 ,就 不 需要 调用 setMapOutputKeyClass O ,因为 它 
将 调用 setOutputKeyClass ( ) 来 设置。 同样, 如果 V2 与 V3 相同 ,只 需要 使 用 
setOutputValUeClass() 。 

这 些 为 中 间 和 最 终 输 出 类 型 进行 设置 的 方法 似乎 有 些 奇怪 。 为 什么 不 能 结合 mapper 
和 reducer 导出 类 型 呢 ? 原因 是 Java 的 泛 型 机 制 有 很 多 限制 : 类 型 擦 除 (type erasure) 导 致 
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表 8-1 MapReduceAPI 中 的 设置 类 型 


输入 类 型 | 中 间 类 型 | 输出 类 型 
属 性 属性 的 设置 方法 
K1 | V1 | K2 | V2 | K3 | V3 
可 以 设置 类 型 的 属性 “| * 
mapreduce. job. inputformat. class setInputFormatClass() * 
mapreduce. map. output. key. class setMapOutputFormatClass * 
mapreduce, map. output. value. class | setMapOutputValueClassO * 
mapreduce, job. output. key. class setOutputKeyClass() * 
mapreduce. job, output. value. class | setOutputValueClass() * 
类 型 必须 一 致 的 属性 
mapreduce. job. map. class setMapperClass() * * * * 
mapreduce. job. combine. class setMapperClass() * * 
mapreduce. job. partitioner. class setcombinerClass() * * 
mapreduce, job, output. key: setGroupingComparatorClass() * 
comparator. class 
mapteduce:, job “outputs group; setFroupingComparatorClass( * 
comparator. class 
mapreduce. job. reduce. class setReducerClass() * * * * 
mapreduce. job. outputformat. class | setOutputFormatClass() * * 


运行 过 程 中 类 型 信息 并 非 一 直 不 可 见 , 所 以 Hadaop 不 得 不 明确 进行 设 定 。 这 也 意味 着 可 
能 用 不 兼容 的 类 型 来 配置 MapReduce 作业 ,因为 这 些 配 置 在 编译 时 无 法 检查 。 与 
MapReduce 类 型 兼容 的 设置 列 在 表 8-1 中 。 类 型 冲突 是 在 作业 执行 过 程 中 被 检测 出 来 的 ， 
所 以 一 个 比较 明智 的 做 法 是 先 用 少量 的 数据 跑 一 次 测试 任务 ,发 现 并 修正 任何 类 型 不 兼容 
的 问题 。 

如 果 没 有 指定 mapper 或 reducer 就 运行 MapReduce, 会 发 生 什么 情况 ? 下 面 是 一 个 最 
简单 的 MapReduce 程序 。 


publicclass MinimalMapReduce extends Configured implements Tool { 
@ Override 
publicint run(String[] args) throws Exception { 
if (args.length !=2) { 
System. err. printf ("Usage: % s [generic options] < input > < output > \ n", getClass () 
-getSimpleName()) ; 
ToolRunner .printGenericCommandUsage (System.err) ; 
return- 1; 
} 
Job job=newJob (getConf () ) ; 
job. setJarByClass (getClass ()); 
FileInputFormat .addInputPath (job, new Path (args[0])); 
FileOutputFormat.setOutputPath (job, new Path (args[1])); 


e? 


return job.waitForCompletion (true) ? 0:1; 

} 

publicstaticvoid main(String[] args) throws Exception { 
int exitCode=ToolRunner.run (new MinimalMapReduce(), args); 
System.exit (exitCode) ; 


} 


在 该 代码 中 没有 指定 mapper、reducer 类 ,只 是 设 定 了 输入 路 径 和 输出 路 径 。 程 序 将 调 
用 默认 的 mapper 类 和 reducer 类 。 如 果 运 行程 序 , 查 看 结果 的 输出 文件 ,会 发 现 其 在 每 一 
行 都 是 加 了 一 个 整数 和 制 表 符 。 

输入 文件 示例 : 


# Apache Spark 

Spark is a fast and general cluster computing system for Big Data. It provides 
high- level APIs in Scala, Java, and Python, and an optimized engine that 
supports general computation graphs for data analysis. It also supports a 


输出 结果 示例 : 


0 #Apache Spark 


16 Spark is a fast and general cluster computing system for Big Data. It provides 
95 high- level APIs in Scala, Java, and Python, and an optimized engine that 
168 supports general computation graphs for data analysis. It also supports a 


例 8-1 简化 的 MapReduce 驱动 程序 ,默认 值 显 示 设 置 


publicclass MinimalMapReduceDefault extends Configured implements Tool { 
@ Override 
publicint run(String[] args) throws Exception { 
if (args.length !=2) { 
System.err.printf ("Usage: %s [generic options] <input><cutput> \n",getClass () 
-getSimpleName()) ; 
ToolRunner.printGenericCommandUsage (System.err) ; 
return- 1; 
} 
Job job= newJob (getConf () ) ; 
job.setJarByClass (getClass ()); 
FileInputFormat .addInputPath (job, new Path(args[0])); 
job.setInputFormatClass (TextInputFormat.class) ; 
job.setMapperClass (Mapper.class) ; 
job. setMapOutputKeyClass (LongWritable.class) ; 
job.setMapOutputValueClass (Text.class) ; 
job.setPartitionerClass (HashPartitioner.class) ; 


job.setNumReduceTasks (1) ; 
job. setReducerClass (Reducer.class) ; 


job. setOutputKeyClass (LongWritable.class) ; 
job.setOutputValueClass (Text.class) ; 
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job.setOutputFormatClass (TextOutputFormat.class); 


FileOutputFormat .setOutputPath (job, new Path (args [1])); 
return job.waitForCompletion (true) ? 0:1; 

} 

publicstaticvoid main (String[] args) throws Exception { 
int exitCode= ToolRunner.run (new MinimalMapReduce (), args); 
System.exit (exitCode) ; 


} 


例 8-2 与 例 8-1 完成 的 事情 一 模 一 样 ,但 是 它 把 作业 环境 设置 为 默认 值 。 虽 然 有 很 多 
其 他 的 默认 作业 设置 ,但 加 粗 显 示 的 部 分 是 执行 一 个 作业 最 关键 的 代码 。 接 下 来 作 逐 一 
讨论 。 
默认 的 输入 格式 是 TextInputFormat, 它 产生 的 键 类 型 是 LongWritable( 文 件 中 每 行 中 
开始 的 偏 移 量 值 ), 值 类 型 是 Text( 文 本 行 )。 这 也 解释 了 最 后 输出 的 整数 的 含义 : 行 偏 
移 量 。 
默认 的 mapper 是 Mapper, 它 将 输入 的 键 和 值 原 封 不 动 地 写 到 输出 中 : 
public class Mapper< KEYIN, VALUEIN, KEYOUT, VALUEOUT> 
extends MapReduceBase implements Mapper<K, V, K, V> { 
public void map (KEYIN key, VALUEIN val,Context context) 
throws IOException, InterruptedException { 
context .write ((KEYOUT) key, (VALUEOUT) val) ; 
} 
} 
Mapper 是 一 个 泛 型 类 型 (generic type) , 它 可 以 接受 任何 键 或 值 的 类 型 。 在 这 个 例子 
中 ,map 的 输入 和 输出 键 是 LongWritable 类 型 ,map 的 输入 输出 值 是 Text 类 型 。 
默认 的 partitioner 是 HashPartitioner, 它 对 每 条 记录 的 键 进行 哈 希 操作 以 决定 该 记录 
应 该 属于 哪个 分 区 。 每 个 分 区 对 应 一 个 reducer 任务 ,所 以 分 区 数 等 于 作业 的 reducer 的 
个 数 ， 
public class HashPartitioner<K, V>extend Partitioner<K, V>{ 
public int getPartition(K key, V value,int numPartitions) { 


return (key.hashCode() & 
Integer .MAX VALUE) %numPartitions; 


和 


键 的 哈 希 码 被 转换 为 一 个 非 负 整数 , 它 由 哈 希 值 与 最 大 的 整 型 值 做 一 次 按 位 与 操作 而 
获得 ,然后 用 分 区 数 进行 取 模 操作 ,来 决定 该 记录 属于 哪个 分 区 索引 。 

默认 情况 下 ,只 有 一 个 reducer, 因 此 也 就 只 有 一 个 分 区 。 在 这 种 情况 下 ,partitioner 操 
作 将 由 于 所 有 数据 都 已 放 入 同一 个 分 区 而 无 关 紧 要 了 。 然 而 ,如 果 有 很 多 reducer. 了解 
HashPartitioner 的 作用 就 非常 重要 。 假 设 键 的 散 列 函数 足够 好 ,那么 记录 将 被 均匀 分 到 若 
干 个 reduce 任务 中 ,这 样 具有 相同 键 的 记录 将 由 同一 个 reduce 任务 进行 处 理 。 

大 家 可 能 已 经 注意 到 ,此 处 并 没有 设置 map 任务 的 数量 。 原 因 是 该 数量 等 于 输入 文件 


被 划分 成 的 分 块 数 , 这 取决 于 输入 文件 的 大 小 以 及 文件 块 的 大 小 (如 果 此 文件 在 HDFS 
中 )。 关 于 如 何 控制 块 大 小 的 操作 ,将 在 8. 2. 2 小 节 中 进行 介绍 。 


Orman 
选择 reducer 的 个 数 


单个 reducer 的 默认 配置 对 Hadoop 新 手 而 言 很 容易 上 手 。 真 实 的 应 用 中 ,作业 会 
把 它 设置 成 一 个 较 大 的 数字 ,否则 由 于 所 有 的 中 间 数 据 都 会 放 到 一 个 reducer 任务 中 ， 
从 而 导致 作业 效率 极 低 。 注 意 , 在 本 地 作业 运行 器 上 运行 时 ,只 支持 0 个 或 1 个 
reducer。 

reducer 最 优 个 数 与 集群 中 可 用 的 reducer 任务 槽 数 相关 。 总 槽 数 由 集群 中 节点 数 
与 每 个 节点 的 任务 槽 数 相 乘 得 到 。 该 值 由 mapred. tasktracker. reduce. tasks. maxlmum 
属性 的 值 决定 。 

一 个 常用 的 方法 是 : 设置 比 总 槽 数 稍微 少 一 些 的 reducer 数 , 这 会 给 reducer 任务 留 
有 余地 (容忍 一 些 错误 发 生 , 而 不 需要 延长 作业 运行 时 间 )。 如 果 reduce 任务 很 大 ,比较 
明智 的 做 法 是 使 用 更 多 的 reducer, 使 得 任务 粒度 更 小 ,这 样 一 来 ,任务 的 失败 才 不 至 于 
显著 影响 作业 执行 时 间 。 


默认 的 reducer 是 Reducer, 它 也 是 一 个 泛 型 类 型 , 它 简 单 地 将 所 有 的 输入 写 到 输 


public class Reducer< KEYIN, VALUEIN, KEYOUT, VALUEOUT> { 
public void reduce (KEYIN key, Iterator< VALUEIN> values, 
Context context) throws IOException { 
for (VALUEIN value:values) { 
context .write (KEYOUT) key, (VALUEOUT) value; 
} 


} 


对 于 这 个 任务 来 说 ,输出 的 键 是 LongWritable 类 型 ,而 值 是 Text 类 型 。 事变 上 ,对 于 
MapReduce 程序 来 说 ,所 有 键 都 是 LongWritable 类 型 ,所 有 值 都 是 Text 类 型 ,因为 它们 是 
输入 键 , 值 的 类 型 ,并且 map 函数 和 reduce 函数 都 是 恒 等 函 数 。 然 而 ,大 多 数 MapReduce 
程序 不 会 一 直 用 相同 的 键 或 值 类 型 ,所 以 就 像 上 一 节 中 描述 的 那样 ,必须 配置 作业 来 声明 使 
用 的 类 型 。 

记录 在 发 送 给 reducer 之 前 ,会 被 MapReduce 系统 进行 排序 。 在 这 个 例子 中 , 键 是 按 
照 数 值 的 大 小 进行 排序 的 ,因此 来 自 输入 文件 中 的 行 会 被 交叉 放 入 一 个 合并 后 的 输出 
x. 

默认 的 输出 格式 是 TextOutputFormat, 它 将 键 和 值 转换 成 字符 串 并 用 Tab 进行 分 隔 ， 
然后 一 条 记录 一 行 地 进行 输出 。 这 就 是 为 什么 输出 文件 是 用 制 表 符 (Tab) 分 隔 原因 的 ,这 
是 TextOutputFormat 的 一 个 特点 。 
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8.1.2 输入 格式 
从 一 般 的 文本 文件 到 数据 库 ,Hadoop 可 以 处 理 很 多 不 同类 型 的 数据 格式 。 本 节 将 探 
讨 数据 格式 问题 。 


1. 输入 分 片 与 记录 
在 前 面 讲 过 ,一 个 输入 分 片 (split) 就 是 由 单个 map 处 理 的 输入 块 。 每 一 个 map 操作 只 
处 理 一 个 输入 分 片 。 每 个 分 片 被 划分 为 若干 个 记录 ,每 条 记录 就 是 一 个 键 / 值 对 ,map 一 个 
接 一 个 地 处 理 每 条 记录 。 输 入 分 片 和 记录 都 是 逻辑 的 ,不 必 将 它们 对 应 到 文件 ,虽然 常见 的 
形式 都 是 文件 。 在 数据 库 的 场景 中 ,一 个 输入 分 片 可 以 对 应 于 一 个 表 上 的 若干 行 , 而 一 条 记 
录 对 应 到 一 行 (DBInputFormat 正 是 这 么 做 的 ,这 种 输入 格式 用 于 从 关系 数据 库 读 取 数 
据 )。 输 入 分 片 在 Java 中 被 表示 为 InputSplit HA. 
public abstract class InputSplit{ 
public abstract long getLength ()throws IOException, InterruptedException; 
public abstract String[] getLocations() throws IOException, InterruptedException; 
} 
InputSplit 包含 一 个 以 字 节 为 单位 的 长 度 和 一 组 存储 位 置 ( 即 一 组 主机 名 )。 注 意 , 一 
个 分 片 并 不 包含 数据 本 身 , 而 是 指向 数据 的 引用 (reference)。 存 储 位 置 供 MapReduce 系统 
使 用 以 便 将 map 任务 尽量 放 在 分 片 数 据 附近 ,而 长 度 用 来 排序 分 片 ,以 便 优先 处 理 最 大 的 
分 片 , 从 而 最 小 化 作业 运行 时 间 ( 这 也 是 贪 禁 近 似 算法 的 一 个 实例 ) 。 
MapReduce 应 用 开发 人 员 并 不 需要 直接 处 理 InputSplit, 因 为 它 是 由 InputFormat 创 
建 的 。InputFormat 负责 产生 输入 分 片 并 将 它们 分 割 成 记录 。 在 探讨 InputFormat 的 具体 
例子 之 前 , 先 来 简单 看 一 下 它 在 MapReduce 中 的 用 法 。 接 口 如 下 : 


public abstract class InputFormat<K, V>{ 
public abstract List < InputSplit > getSplits (JobContext context) throws IOException, 
InterruptedException; 
public abstract RecordReader < K, V > createRecordReader (InputSplit split, 
TaskAttemptContext context) throws IOException, InterruptedException; 

} 


运行 作业 的 客户 端 通过 调用 getSplits() 方 法 计算 分 片 , 然 后 将 它们 发 送 到 jobtracker， 
jobtracker 使 用 其 存储 位 置信 息 来 调度 map 任务 ,从 而 在 tasktracker 上 处 理 这 些 分 片 数 
据 。 在 tasktracker 上 ,map 任务 把 输入 分 片 传 给 InputFormat 的 getRecordReader() 方 法 
来 获得 这 个 分 片 的 RecordReader。RecordReader 基本 就 是 记录 上 的 迭代 器 ,map 任务 用 一 
个 RecordReader 来 生成 记录 的 键 / 值 对 ,然后 再 传递 给 map 函数 。 查 看 Mapper 的 run() 方 
法 可 以 看 到 这 些 情 况 : 
public void run (Context context)throws IOExcption, InterruptedException{ 
setup (context) ; 
while (context .nextKeyValue ()) { 


map (context .getCurrentKey () , conext .getCurrentValue(), context) ; 
: 


运行 setup() 之 后 ,再 重复 调用 Context 上 的 nextKeyValue() 委 托 给 RecordRader 的 同名 
函数 实现 ,来 为 mapper 产生 key 和 value 对 象 。 通 过 Context, key 和 value 从 RecordReader $Œ 
新 取出 传递 给 map()。 当 reader 读 到 stream 的 结尾 时 ,nextKeyValue() 方 法 返回 false, 
map 任务 运行 其 cleanup() 方 法 ,然后 结束 。 

最 后 注意 ,Mapper 的 run() 方 法 是 公共 的 ,可 以 由 用 户 定制 。MultithreadedMapRunner 是 
另 一 个 MapRunnable 接口 的 实现 , 它 可 以 使 用 可 配置 个 数 的 线程 来 并 发 地 运行 多 个 
mappers( 使 用 mapred. map. multithreadedrunner. threads 设置 )。 对 于 大 多 数 数据 处 理 任 
务 来 说 ,MapRunner 没有 优势 。 但 是 ,对 于 因为 需要 连接 外 部 服务 器 而 造成 单个 记录 处 理 
时 间 比 较 长 的 mapper 来 说 , 它 允 许多 个 mapper 在 同一 个 JVM 下 ,以 尽量 避免 竞争 的 方式 
执行 。 

1) FilelnputFormat 类 

FileInputFormat 类 是 所 有 使 用 文件 作为 其 数据 源 的 InputFormat 实现 的 基 类 ( 见 
图 8-1)。 它 提供 了 两 个 功能 : 四 定义 哪些 文件 包含 在 一 个 作业 的 输入 中 ; 四 为 输入 文件 生 
成 分 片 的 实现 。 把 分 片 分 割 成 记录 的 作业 由 其 子 类 来 完成 。 
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SequenceFile k SequenceFileAsBinary 
InputFormat<K,V> InputFormat 


SequenceFileAsText 


InputFormat 
<<interface>> z z 
Composable k— Cs L : Sequenosrl 
InputFormat<K,V> v nputFiter<K,V> 


DBlnputFormat<T> 


Empty 
InputFormat<K,V> 


图 8-1 InputFormat 类 的 层次 结构 


2) FilelnputFormat 类 的 输入 路 径 
作业 的 输入 被 设 定 为 一 组 路 径 ,这 对 限定 作业 输入 提供 了 很 大 的 灵活 性 。FileInputFormat 
提供 四 种 静态 方法 来 设 定 Job 的 输入 路 径 : 


plat matin a tt ont Senn ea ne hart Zea 
mma Sees ED 


Public static void addInputPath (JobConf, Path path) 

Public static void addInputPaths (JobConf, String commaSeparatedPaths) 
Public static void setInputPaths (Jobconf，Path… inputPaths) 

Public static void setInputPaths (JobConf, String commaSeparatedPaths) 


其 中 ,addInputPath() 和 addInputPaths() 方 法 可 以 将 一 个 或 多 个 路 径 加 入 路 径 列 表 。 
这 两 个 方法 可 以 重复 调用 来 建立 路 径 列 表 。setInputPaths() 方 法 可 以 一 次 设 定 完整 的 路 径 
列表 (替换 前 面 调用 中 在 Job 上 所 设置 的 所 有 路 径 ) 。 

一 条 路 径 可 以 表示 一 个 文件 .一 个 目录 或 是 一 个 glob, 即 一 个 文件 和 目录 的 集合 。 表 
示 目 录 的 路 径 包 含 这 个 目录 下 所 有 的 文件 ,这 些 文件 都 作为 作业 的 输入 。 

一 个 被 指定 为 输入 路 径 的 目录 ,其 内 容 不 会 被 递归 进行 处 理 。 事 实 上 ,这 些 目录 只 
包含 文件 : 如 果 包 含 子 目录 ,也 会 被 解释 为 文件 (从 而 产生 错误 )。 人 处 理 这 个 问题 的 方 
法 是 : 使 用 一 个 文件 glob 或 一 个 过 滤器 根据 命名 模式 (name pattern) 限 定 选择 目录 中 
的 文件 。 

add 和 set 方法 允许 指定 包含 的 文件 。 如 果 需 要 排除 特定 文件 ,可 以 使 用 FileInputFormat 
的 setInputPathFilter() 方 法 设置 一 个 过 滤器 : 


public static void setInputPathFilter (Job job,Class<? extends PathFilter> 
filter) 


即使 不 设置 过 滤器 ,FilelnputFormat 也 会 使 用 一 个 默认 的 过 滤器 来 排除 隐藏 文件 (名 
称 中 以 *,” 和 * 一 ”开头 的 文件 )。 如 果 通 过 调用 setInputPathFilter() 设 置 了 过 滤器 , 它 会 在 
默认 过 滤器 的 基础 上 进行 过 滤 。 换 句 话说 , 自 定义 的 过 滤器 只 能 看 到 非 隐藏 文件 。 

路 径 和 过 滤器 也 可 以 通过 配置 属性 来 设置 (参见 表 8-2) ,这 对 Streaming 和 Pipes 应 用 
很 方便 。Streaming 和 Pipes 接口 都 使 用 -input 选项 来 设置 路 径 , 所 以 通常 不 需要 直接 进行 
手动 设置 。 

表 8-2 输入 路 径 和 过 滤器 属性 
属性 名 称 类 型 默认 值 描 述 


作业 的 输入 文件 。 包 含 逗号 的 路 径 中 的 逗号 由 
“CRS. AWM: glob{a,b} ÆR T {a\,b} 


mapred. input. dir 逗号 分 隔 的 路 径 无 


mapred input. path 。 | pathFilter 类 名 | 无 | 应 用 于 作业 输入 文件 的 过 滤器 


Filter. class 


3) FileInputFormat 类 的 输入 分 片 

假设 给 定 一 组 文件 , FileInputFormat 是 如 何 把 它们 转换 为 输入 分 片 的 呢 ? 
FileInputFormat 只 分 割 大 文件 。 这 里 的 “大 ? 指 的 是 超过 HDFS 块 的 大 小 。 分 片 通常 与 
HDFS 块 大 小 一 样 ,这 在 大 多 应 用 中 是 合理 的 ; 然而 ,这 个 值 也 可 以 通过 设置 不 同 的 
Hadoop 属性 来 改变 ,如 表 8-3 所 示 。 

最 小 的 分 片 大 小 通常 是 1B, 不 过 某 些 格式 可 以 使 分 片 大 小 有 一 个 更 低 的 下 界 。 例 如 ， 
顺序 文件 在 流 中 每 次 插入 一 个 同步 入口 ,所 以 最 小 的 分 片 大 小 不 得 不 足够 大 ,以 确保 每 个 分 
片 有 一 个 同步 点 ,以 便 reader 根据 记录 边界 进行 重新 同步 。 


表 8-3 控制 分 片 大 小 的 属性 
属性 名 称 类 型 默认 值 描 述 
mapred. min. split. size int |1 一 个 文件 分 片 最 小 的 有 效 字 节 数 


Long . MAX_ VALUE , | 一 个 文件 分 片 中 最 大 的 有 效 字 节 数 (以 
即 9223372036854775807 | 字 节 算 ) 


dfs. block. size long | 128 MB, 即 134217728 HDFS 中 块 的 大 小 ( 接 字 节 ) 


mapred. max. split. size long 


应 用 程序 可 以 强制 设置 一 个 最 小 的 输入 分 片 大 小 : 通过 设置 一 个 比 HDFS 块 更 大 一 些 
的 值 ,强制 分 片 比 文件 块 大 。 如 果 数 据 存 储 在 HDFS 上 ,那么 这 样 做 是 没有 好 处 的 ,因为 这 
样 做 会 增加 对 map 任务 来 说 不 是 本 地 文件 的 块 数 。 

最 大 的 分 片 大 小 默认 是 由 Java long 类 型 表示 的 最 大 值 。 这 样 做 的 效果 是 : 当 它 的 值 
被 设置 成 小 于 块 大 小 时 ,将 强制 分 片 比 块 小 。 分 片 的 大 小 由 以 下 公式 计算 (参见 
FilelnputFormat 的 computeSplitSize() 方 法 ): 


max (minimumSize,min (maximumSize,blockSize)) 
在 默认 情况 下 : 
minimumSize <blockSize <maximumSize 


所 以 ,分 片 的 大 小 就 是 blocksize。 这 些 参数 的 不 同 设置 及 其 如 何 影响 最 终 分 片 大 小 请 
参见 表 8-4 的 说 明 。 


表 8-4 举例 说 明 如 何 控制 分 片 的 大 小 


最 小 分 片 大 小 最 大 分 片 大 小 块 的 大 小 分 片 大 小 说 明 
1( 默 认 值 ) | Lon MAX_VALUE | 64MB( 默 认 值 ) | 64MB | 默认 情况 下 ,分 片 大 小 
(默认 值 ) 
增加 分 片 大 小 最 自然 的 方法 是 
r 提供 更 大 的 HDFS 块 ,通过 
1( 默 认 值 ) Long. MAX_VALUE | 128MB 128MB dfs. block. size 或 在 构建 文件 时 
针对 单个 文件 进行 设置 
通过 使 最 小 分 片 大 小 的 值 大 于 
128MB VALUE | 64MB( 默 认 值 ) 128MB | 块 大 小 的 方法 来 增 大 分 片 大 
小 ,但 代价 是 增加 了 本 地 操作 
z x 通过 使 最 大 分 片 大 小 的 值 大 于 
ICRAM) | 32MB 64MB( 默 认 值 ) 32MB 块 大 小 的 方法 来 减少 分 片 大 小 


4) 小 文件 与 CombineFileInputFormat 

相对 于 大 批量 的 小 文件 , Hadoop 更 适合 处 理 少量 的 大 文件 。 一 个 原因 是 FileInput. 
Format 生成 的 InputSplit 是 一 个 文件 或 该 文件 的 一 部 分 。 如 果 文 件 很 小 (小 ?意味 着 比 
HDFS 的 块 要 小 很 多 ) ,并 且 文 件数 量 很 多 ,那么 每 次 map 任务 只 处 理 很 少 的 输入 数据 ,( 一 
个 文件 ) 就 会 有 很 多 map 任务 ,每 次 map 操作 都 会 造成 额外 的 开销 。 请 比较 分 割 成 16 个 
64MB 块 的 1GB 的 一 个 文件 与 100KB 的 10 000 个 文件 。10 000 个 文件 每 个 都 需要 使 用 
个 map 操作 ,作业 时 间 比 一 个 文件 上 的 16 个 map 操作 慢 几 十 甚至 几 百 倍 。 
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CombineFileInputFormat 可 以 缓解 这 个 问题 , 它 是 针对 小 文件 而 设计 的 。 
FileInputFormat 为 每 个 文件 产生 1 个 分 片 , 而 CombineFileInputFormat 把 多 个 文件 打包 
到 一 个 分 片 中 ,以 便 每 个 mapper 可 以 处 理 更 多 的 数据 。 关 键 是 ,决定 哪些 块 放 入 同一 个 分 
片 时 ,CombineFileInputFormat 会 考虑 到 节点 和 机 架 的 因素 ,所 以 在 典型 MapReduce 作业 
中 处 理 输 入 的 速度 并 不 会 下 降 。 

当然 ,如 果 可 能 ,应 该 尽量 避免 许多 小 文件 的 情况 ,因为 MapReduce 处 理 数 据 的 最 佳 速 
度 最 好 与 数据 在 集群 中 的 传输 速度 相同 ,而 处 理 小 文件 将 增加 运行 作业 而 必需 的 寻 址 次 数 。 
还 有 ,在 HDFS 集群 中 存储 大 量 的 小 文件 会 浪费 namenode 的 内 存 。 一 个 可 以 减少 大 量 小 
文件 的 方法 是 使 用 SequenceFile 将 这 些小 文件 合并 成 一 个 或 多 个 大 文件 : 可 以 将 文件 名 作 
为 键 (如 果 不 需 要 键 , 可 以 用 NullWritable 等 常量 代替 ) ,文件 的 内 容 作 为 值 。 但 如 果 HDFS 
中 已 经 有 大 批 小 文件 ,CombineFileInputFormat 方法 值得 一 试 。 

CombineFileInputFormat 不 仅 可 以 很 好 地 处 理 小 文件 ,在 处 理 大 文件 时 也 有 好 处 。 本 
质 上 ,CombineFileInputFormat 使 map 操作 中 处 理 的 数据 量 与 HDFS 中 文件 的 块 大 小 之 间 
的 耦合 度 降 低 了 。 

如 果 mapper 可 以 在 几 秒 钟 之 内 处 理 每 个 数据 块 ,就 可 以 把 CombineFileInputFormat 
的 最 大 分 片 大 小 设 成 块 数 的 较 小 整数 倍 ( 通 过 mapred. max. split. size 属性 设置 ) ,使 每 个 
map 可 以 处 理 多 个 块 。 这 样 , 整 个 处 理 时间 减 少 了 ,因为 相对 来 说 ,少量 mapper 的 运行 , 减 
少 了 运行 大 量 短 时 mapper 所 涉及 的 任务 管理 和 启动 开销 。 

由 于 CombineFileInputFormat 是 一 个 抽象 类 , 没有 提供 实体 类 (不同 于 
FileInputFormat) ,所 以 使 用 的 时 候 需要 一 些 额 外 的 工作 (希望 日 后 会 有 一 些 通用 的 实现 添 
加 入 库 )。 例 如 ,如 果 要 使 CombineFileInputFormat 与 TextInputFormat 相同 ,需要 创建 一 
个 CombineFileInputFormat 的 具体 子 类 ,并 且 实现 getRecordReader() 方 法 。 

5) 避免 切 分 

有 些 应 用 程序 可 能 不 希望 文件 被 切 分 ,而 是 用 一 个 mapper 完整 处 理 每 一 个 输入 文件 。 
例如 ,检查 一 个 文件 中 所 有 记录 是 否 有 序 ,一 个 简单 的 方法 是 顺序 扫描 每 一 条 记录 并 且 比 较 
后 一 条 记录 是 否 比 前 一 条 要 小 。 如 果 将 它 实现 为 一 个 map 任务 ,那么 只 有 一 个 map 操作 整 
个 文件 时 ,这 个 算法 才 可 行 。 

有 两 种 方法 可 以 保证 输入 文件 不 被 切 分 。 第 一 种 (最 简单 但 不 怎么 漂亮 的 ) 方 法 就 是 增 
加 最 小 分 片 大 小 ,将 它 设置 成 大 于 要 处 理 的 最 大 文件 大 小 ,即将 最 大 文件 大 小 设置 为 最 大 值 
long. MAX_ VALUE 即 可 。 第 二 种 方法 就 是 使 用 FileInputFormat 具体 子 类 ,并 且 重 载 
isSplitable() 方 法 把 返回 值 设置 为 false。 例 如 ,以 下 就 是 一 个 不 可 分 割 的 TexInputFormat: 

public class NonSplittableTextInputFormat extends TextInputFormat 

@ override 

protected boolean isSplitable(FileSystem fs, Path file) { 
return false; 
t 

$ 

6) mapper 中 的 文件 信息 

处 理 文 件 输入 分 片 的 mapper 可 以 从 作业 配置 对 象 的 某 些 特定 属性 中 读 取 输入 分 片 的 


有 关 信 息 , 这 可 以 通过 调用 在 Mapper 的 Context 对 象 上 的 getInputSplit() 方 法 来 实现 。 当 
输入 的 格式 源 自 于 FileInputFormat 时 ,该 方法 返回 的 InputSplit 可 以 被 强制 转换 为 一 个 
FileSplit, 以 此 来 访问 表 8-5 列 出 的 文件 信息 。 


表 8-5 文件 输入 分 片 的 属性 


属性 名 称 类 型 说 明 
map. input. file Path/String 正在 处 理 的 输入 文件 的 路 径 
map. input. start long 分 片 开 始 处 的 字 节 偏 移 量 
map. input. length long 分 片 的 长 度 ( 按 字 节 ) 


7) 把 整个 文件 作为 一 条 记录 处 理 

有 时 ,mapper 需要 访问 一 个 文件 中 的 全 部 内 容 。 即 使 不 分 割 文件 ,仍然 需要 一 个 
RecordReader 来 读 取 文 件 内 容 作 为 record 的 值 。 例 8-3 的 WholeFileInputFormat 展示 了 
实现 的 方法 。 

例 8-2 把 整个 文件 作为 一 条 记录 的 InputFormat 


publicclass WholeFileInputFormat extends FileInputFormat<NullWritable, 
BytesWritable> { 
@ Override 
protectedboolean isSplitable (JobContext context, Path file) { 
returnfalse; 
} 
@ Override 
public RecordReader<NullWritable, BytesWritable> createRecordReader ( 
InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException{ 
WholeFileRecordReader reader= new WholeFileRecordReader () ; 
return reader; 


} 


WholeFileInputFormat 键 没有 使 用 键 ,此 处 表示 为 NullWritable, 值 是 文件 内 容 , 表 示 
成 BytesWritable 实例 。 它 定义 了 两 个 方法 : 一 个 是 将 isSplitable() 方 法 重 载 成 返回 false 
值 ,来 指定 输入 文件 不 被 分 片 ; 另 一 个 是 实现 了 getRecordReader() 方 法 来 返回 一 个 定制 的 
RecordReader 实现 , 见 例 8-4。 

例 8-3 WholeFilelnputFormat 使 用 RecordReader 将 整个 文件 读 为 一 条 记录 。 


publicclass WholeFileRecordReader extends RecordReader< NullWritable,BytesWritable> { 
private FileSplit fileSplit; 
private Configuration conf; 
private BytesWritable value=new BytesWritable(); 
privateboolean processed= false; 


@ Override 
publicvoid initialize (InputSplit split, TaskAttemptContext context) 
throws IOException, InterruptedException{ 

this.fileSplit= (FileSplit) split; 


this .conf= context.getConfiguration (); 
} 


@ Override 
publicboolean nextKeyValue () throws IOException, InterruptedException { 
if (!processed) { 
byte[] contents=newbyte[(int) fileSplit.getLength() ]; 
Path file=fileSplit.getPath(); 
FileSystem fs= file.getFileSystem (conf); 
FSDataInputStream in=null; 
try { 
in= fs.open (file); 
IoUtils.readFully(in, contents, 0, contents.length) ; 
value.set (contents, 0, contents.length) ; 
} finally { 
IoUtils.closeStream(in) ; 
4 
processed=true; 
returntrue; 
} 
returnfalse; 
} 


@ Override 
public NullWritable getCurrentKey() throws IOException, 
InterruptedException { 
return NullWritable.get (); 
} 


@ Override 
public BytesWritable getCurrentValue() throws IOException, 
InterruptedException { 

return value; 


} 


@Override 

publicfloat getProgress() throws IOException{ 
return processed ? 1.0f :0.0f; 

} 


@Override 
publicvoid close() throws IOException { 
// do nothing 
} 
} 


WholeFileRecordReader 负责 将 FileSplit 转换 成 一 条 记录 ,该 记录 的 键 是 null, 值 是 这 
个 文件 的 内 容 。 因 为 只 有 一 条 记录 ,WholeFileRecordReader 要 么 处 理 这 条 记录 ,要 么 不 处 
理 , 所 以 它 维护 一 个 名 称 为 processed 的 布尔 变量 来 表示 记录 是 否 被 处 理 过 。 如 果 next 


方法 被 调用 ,文件 没有 被 处 理 , 就 打开 文件 ,产生 一 个 长 度 是 文件 长 度 的 字 节 数组 ,并 用 
Hadoop 的 IOUtils 类 把 文件 的 内 容 放 入 字 节 数组 。 然 后 在 被 传递 到 next() 方 法 的 


BytesWritable 实例 上 设置 数组 ,返回 值 为 true 则 表示 成 功 读 取 记录 。 

其 他 一 些 方法 都 是 一 些 直接 的 用 来 生成 正确 的 键 和 值 类 型 .获取 reader 位 置 和 状态 的 
方法 ,还 有 一 个 close() 方 法 ,该 方法 由 MapReduce 框架 在 reader 做 好 后 调用 。 

现在 演示 如 何 使 用 WholeFileInputFormat。 假 设 有 一 个 将 若干 个 小 文件 打包 成 顺序 
文件 的 MapReduce 作业 , 键 是 原来 的 文件 名 , 值 是 文件 的 内 容 。 如 例 8-5 所 示 。 

例 8-4 将 若干 个 小 文件 打包 成 顺序 文件 的 MapReduce 程序 。 


publicclass SmallFilesToSequenceFileConverter extends Configured implements ‘bol { 
staticclass SequenceFileMapper extends Mapper < NullWritable, BytesWritable, Text, 
BytesWritable> 
{ 
private Text filenameKey; 
@ Override 
protectedvoid setup (Context context) 
{ 
InputSplit split=context.getInputSplit (); 
Path path= ((FileSplit) split) .getPath(); 
filenameKey= new Text (path.toString()) 
} 
@Override 
| publicvoid map (NullWritable key, BytesWritable value, Context context) 
throws IOException, InterruptedException{ 
context .write (filenameKey, value); 
J 
} 


@ Override 

publicint run (String[] args) throws Exception { 
Configuration conf= new Configuration (); 
Job job= newJob (conf) ; 
job. setJobName ("Smal1FilesToSequenceFileConverter") ; 


FileInputFormat.addInputPath (job, new Path (args[0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 


job.setInputFormatClass (WholeFileInputFormat.class) ; 
job.setOutputFommatClass (SequenceFileOutputFommat .class) ; 


job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (BytesWritable.class) ; 


jjob.setMapperClass (SequenceFileMapper.class) ; 


return job.waitForCompletion (true) ? 0: 1; 
} 


publicstaticvoid main (String [] args) throws Exception 
{ 
int exitCode=ToolRunner .run (newSmal1FilesToSequenceFileConverter(), args); 
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System.exit (exitCode) ; 
} 


由 于 输入 格式 是 wholeFileInputFormat, 所 以 mapper 只 需要 找到 文件 输入 分 片 的 
文件 名 。 通 过 将 InputSplit 从 context 强制 转换 为 FileSplit 来 实现 这 点 ,后 者 包含 一 个 
方法 可 以 获取 文件 路 径 。reducer 的 类 型 是 相同 的 (没有 明确 设置 ) ,输出 格式 是 
SequenceFileOutputFormat. 

2. 文本 输入 

Hadoop 非常 擅长 处 理 非 结 构 化 文本 数据 。 本 节 讨 论 Hadoop 提供 的 用 于 处 理 文本 的 
不 同 InputFormat, 

1) TextInputFormat 

TextInputFormat 是 默认 的 InputFormat。 每 条 记录 是 一 行 输入 。 键 是 LongWritable 
类 型 ,存储 该 行 在 整个 文件 中 的 字 节 偏 移 量 。 值 是 这 行 的 内 容 , 不 包括 任何 行 终止 符 (换行 
符 和 回 车 符 ), 它 是 Text 类 型 的 。 所 以 ,包含 如 下 文本 的 文件 被 切 分 为 每 个 分 片 4 条 记录 : 

On the top of the Crumpetty Tree 

The Quangle Wangle sat, 


But his face you could not see, 
On account of his Beaver Hat. 


每 条 记录 表示 为 以 下 键 / 值 对 : 


(0,On the top of the Crumpetty Tree) 

(33, The Quangle Wangle sat,) 

(57,But his face you could not see,) 

(89,On account of his Beaver Hat) 

很 明显 , 键 并 不 是 行 号 。 一 般 情况 下 ,很 难 取得 行 号 ,因为 文件 按 字 节 而 不 是 按 行 切 分 
为 分 片 。 每 个 分 片 单独 处 理 。 行 号 实际 上 是 一 个 顺序 的 标记 , 即 每 次 读 取 一 行 的 时 候 需 要 
对 行 号 进行 计数 。 因 此 ,在 分 片 内 知道 行 号 是 可 能 的 ,但 在 文件 中 是 不 可 能 的 。 

然而 ,每 一 行 在 文件 中 的 偏 移 量 是 可 以 在 分 片 内 单独 确定 的 ,而 不 需要 分 片 ,因为 每 个 
分 片 都 知道 上 一 个 分 片 的 大 小 ,只 需要 加 到 分 片 内 的 偏 移 量 上 ,就 可 以 获得 在 整个 文件 中 的 
偏 移 量 了 。 通 常 ,对 于 每 行 需要 唯一 标识 的 应 用 来 说 ,有 偏 移 量 就 足够 了 。 如 果 再 加 上 文件 
名 ,那么 它 在 整个 文件 系统 内 就 是 唯一 的 。 当 然 , 如 果 每 一 行 都 是 定 长 的 ,那么 这 个 偏 移 量 
除 以 每 一 行 的 长 度 即 可 算出 行 号 。 

2) KeyValueTextInputFormat 

TextInputFormat 的 键 , 即 每 一 行 在 文件 中 的 字 节 偏 移 量 ,通常 并 不 是 特别 有 用 。 通 常 
情况 下 ,文件 中 的 每 一 行 是 一 个 键 / 值 对 ,使 用 某 个 分 界 符 进行 分 隔 , 如 制 表 符 。 例 如 ,以 下 
由 Hadoop 默认 OutputFormat( 即 TextOutputFormat) 产 生 的 输出 ,如 果 要 正确 处 理 这 类 
文件 ,KeyValueTextInputFormat 比较 合适 。 

可 以 通过 key. value. separator. in. input. line 属性 来 指定 分 隔 符 。 它 的 默认 值 是 一 个 
制 表 符 。 以 下 是 一 个 示例 ,其 中 一 表示 一 个 (水 平方 向 的 ) 制 表 符 : 


linel~ on the top of the Crumpetty Tree 


line2>The Quangle Wangle sat, 
line3~But his face you could not see. 
line4>On account of his Beaver Hat. 


与 TextInputFormat 类 似 , 输 入 是 一 个 包含 4 条 记录 的 分 片 , 不 过 此 时 的 键 是 每 行 排 在 
Tab 之 前 的 Text 序列 : 

(Linel, On the top of the Crumpetty Tree) 

(line2, The Quangle Wangle sat,) 

(line3, But his face you could not see,) 

(line4, On account of his Beaver Hat.) 

3) NLineInputFormat 

通过 TextInputFormat 和 Key ValueTextInputFormat. #4 mapper 收 到 的 输入 行 数 不 
同 。 行 数 依赖 于 输入 分 片 的 大 小 和 行 的 长 度 。 如 果 和 希望 mapper 收 到 固定 行 数 的 输入 , 需 
要 使 用 NLineInputFormat 作为 InputFormat。 与 TextInputFormat 一 样 , 键 是 文件 中 行 的 
字 节 偏 移 量 , 值 是 行 本 身 。 

N 是 每 个 mapper 收 到 的 输入 行 数 。N 设置 为 1( 默 认 值 ) 时 ,每 个 mapper 会 正好 收 到 
一 行 输 入 。mapred. line. input. format. linespermap 属性 控制 N 的 值 。 仍 然 以 刚才 的 4 行 
输入 为 例 : 

On the top of the Crumpetty Tree 

The Quangle Wangle sat, 


But his face you could not see. 
On account of his Beaver Hat. 


例如 ,如 果 N 是 2, 则 每 个 输入 分 片 包含 两 行 。 一 个 mapper 会 收 到 前 两 行 键 / 值 对 : 


(0, On the top of the Crumpetty Tree) 
(33, The Quangle Wangle sat,) 


另 一 个 mapper 会 收 到 后 两 行 : 


(57,But his face you could not see.) 

(89,On account of his Beaver Hat.) 

键 / 值 与 TextInputFormat 生成 的 一 样 。 不 同 在 于 输入 分 片 的 构造 方法 。 

通常 来 说 ,对 少量 输入 行 执行 map 任务 是 比较 低 效 的 (由 于 任务 初始 化 的 开销 ) ,但 有 
些 应 用 程序 会 对 少量 数据 做 一 些 扩 展 的 (也 就 是 CPU 密集 型 的 ) 计 算 任 务 ,然后 产生 输出 。 
仿真 是 一 个 不 错 的 例子 。 通 过 生成 一 个 指定 输入 参数 的 输入 文件 ,每 行 一 个 参数 , 便 可 以 执 
行 一 个 参数 扫描 分 析 (parameter sweep) :并 发 运行 一 组 仿真 试验 ,看 模型 是 如 何 随 参数 不 
同 而 变化 的 。 

在 一 些 长 时 间 运 行 的 仿真 实验 中 ,可 能 会 出 现任 务 超时 的 情况 。 一 个 任务 在 10 分 钟 内 
没有 报告 状态 ,tasktracker 将 认为 任务 失败 ,并 且 中 止 进程 。 这 个 问题 的 最 佳 解决 方案 是 
定期 报告 状态 ,如 写 一 段 状态 信息 ,或 增加 计数 器 的 值 。 

另 一 个 例子 是 用 Hadoop 引导 从 多 个 数据 源 ( 如 数据 库 ? 加 载 数据 。 创 建 一 个 “种 子 ? 输 
入 文件 ,记录 所 有 的 数据 源 ,一 行 一 个 数据 源 。 然 后 每 个 mapper 分 到 一 个 数据 源 , 并 从 这 
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些 数据 源 中 加 载 数据 到 HDFS 中 。 这 个 作业 不 需要 reduce 阶段 ,所 以 reducer 的 数量 应 该 
被 设 成 0( 通 过 调用 Job 的 setNumReduceTasks() 来 设置 ) 。MapReduce 作业 就 可 以 处 理 加 
载 到 HDFS 中 的 数据 。 

4) XML 

大 多 数 XML 解析 器 会 处 理 整 个 XML 文档 ,所 以 如 果 一 个 大 型 XML 文档 由 多 个 输入 
分 片 组 成 ,那么 单独 处 理 每 个 分 片 就 有 挑战 了 。 当 然 ,可 以 在 一 个 mapper 上 (如 果 这 个 文 
件 不 是 很 大 ) 使 用 “把 整个 文件 作为 一 条 记录 人 处理” 介绍 的 技术 ,处 理 整 个 XML 文档 。 

由 很 多 “记录 ”( 此 处 是 XML 文档 片断 ) 组 成 的 XML 文档 ,可 以 使 用 简单 的 字符 串 匹 配 
或 正则 表达 式 匹 配 的 方法 来 查找 记录 的 开始 标签 和 结束 标签 ,而 得 到 很 多 记录 。 这 可 以 解 
Beth MapReduce 框架 进行 分 割 的 问题 ,因为 一 条 记录 的 下 一 个 开始 标签 可 以 通过 简单 地 从 
分 片 开始 处 进行 扫描 轻松 找到 ,就 像 TextInputFormat 确定 新 行 的 边界 一 样 。 

Hadoop 提供 了 StreamXmlRecordReader 类 (在 org. apache. hadoop. streaming 包 中 , 它 也 可 
以 在 Streaming 之 外 使 用 )。 通 过 把 输入 格式 设置 为 StreamInputFormat, 把 stream. 
recordreader. class 属性 设置 为 org. apache. Hadoop. Streaming. StreamXmlRecordReader 来 使 用 
StreamXmlRecOrdReader 类 。reader 的 配置 方法 是 通过 作业 配置 属性 来 设置 reader 开始 标 
签 和 结束 标签 。 

例如 ,维基 百科 用 XML 格式 来 提供 大 量 数据 内 容 , 非 常 适合 用 MapReduce 来 并 行 处 
理 。 数 据 包含 在 一 个 大 型 的 XML 打包 文档 中 ,文档 中 有 一 些 元 素 , 例 如 包含 每 页 内 容 和 相 
关 元 数据 的 page 元 素 。 使 用 streamXmlRecordReader 后 ,这 些 page 元 素 便 可 解释 为 一 系 
列 的 记录 , 交 由 一 个 mapper 来 处 理 。 

3. 二 进 制 输入 

Hadoop 的 MapReduce 不 只 是 可 以 处 理 文本 信息 , 它 还 可 以 处 理 二 进 制 格式 的 数据 。 

1) SequenceFileInputFormat 类 

Hadoop 的 顺序 文件 格式 存储 二 进 制 的 键 / 值 对 的 序列 。 由 于 它们 是 可 分 割 的 (它们 有 
同步 点 ,所 以 reader 可 以 从 文件 中 的 任意 一 点 与 记录 边界 进行 同步 ,例如 分 片 的 起 点 ) ,所 
以 它们 很 符合 MapReduce 数据 的 格式 ,并且 它 们 还 支持 压缩 ,可 以 使 用 一 些 序列 化 技术 来 
存储 任意 类 型 。 

如 果 要 用 顺序 文件 数据 作为 MapReduce 的 输入 ,应 用 SequenceFileInputFormat。 键 
和 值 由 顺序 文件 决定 ,所 以 只 需要 保证 map 输入 的 类 型 匹配 。 例 如 ,如 果 输 入 文件 中 键 的 
格式 是 IntWritable, 值 是 Text. mapper 的 格式 应 该 是 Mapper 一 IntWritable,Text,K,V 二 ， 
其 中 K Al V 是 这 个 mapper 输出 的 键 和 值 的 类 型 。 

虽然 从 名 称 上 看 不 出 来 , 但 SequenceFileInputFormat 可 以 读 MapFile 和 
SequenceFile。 如 果 在 处 理 顺序 文件 时 遇 到 目录 ,SequenceFileInputFormat 类 会 认为 自己 
正在 读 MapFile, 使 用 的 是 其 数据 文件 。 因 此 ,没有 MapFileInputFormat 类 也 是 可 以 理 
解 的 。 

2) SequenceFileAsTextlnputFormat 类 

SequenceFileAsTextInputFormat 是 SequenceFileInputFormat 的 变 体 , 它 将 顺序 文件 
的 键 和 值 转换 为 Text 对 象 。 这 个 转换 通过 在 键 和 值 上 调用 toString() 方 法 实现 。 这 个 格 
式 使 顺序 文件 作为 Streaming 的 合适 的 输入 类 型 。 


3) SequenceFileAsBina rylnputFormat 类 

SequenceFileAsBinaryInputFormat 是 SequenceFileInputFormat 的 一 种 变 体 , 它 获取 
顺序 文件 的 键 和 值 作为 二 进 制 对 象 。 它 们 被 封装 为 BytesWritable 对 象 ,因而 应 用 程序 可 
以 任意 地 解释 这 些 字 节 数组 。 结合 使 用 SequenceFile. Reader 的 appendRaw() 方 法 , 它 提 


供 了 在 MapReduce 中 可 以 使 用 任意 二 进 制 数据 类 型 的 方法 (作为 顺序 文件 打包 ) ,然而 , 插 
入 Hadoop 序列 化 机 制 通 常 更 简洁 。 
4. 多 种 输入 


虽然 一 个 MapReduce 作业 的 输入 可 能 包含 多 个 输入 文件 (由 文件 glob .过 滤器 和 路 径 
组 成 ), 但 所 有 文件 都 由 同一 个 InputFormat、 同 一 个 Mapper 来 解释 。 然 而 ,数据 格式 往往 
会 随时 间 演 变 , 所 以 必须 写 自己 的 mapper 来 处 理应 用 中 的 遗留 数据 格式 。 或 者 ,有 些 数据 
源 会 提供 相同 的 数据 ,但 是 格式 不 同 。 对 不 同 的 数据 集 进行 连接 (Join, 也 称 “ 联 接 ”) 操 作 
时 , 便 会 产生 这 样 的 问题 。 例 如 ,有 些 数据 可 能 是 使 用 制 表 符 分 隔 的 文本 文件 , 另 一 些 可 能 
是 二 进 制 的 顺序 文件 。 即 使 它们 格式 相同 ,它们 的 表示 也 可 能 不 同 ,因此 需要 分 别 进行 
解析 。 

这 些 问 题 可 以 用 MultipleInputs 类 来 妥善 处 理 , 它 允许 为 每 条 输入 路 径 指定 
InputFormat 和 Mapper。 例 如 , 想 把 两 份 数据 放 在 一 起 来 分 析 , 则 可 以 按照 下 面 的 方式 来 
设置 输入 路 径 : 

MultipleInputs.addInputPath (job, InputPath1, 

Text InputFormat.class,Mapperl.class) 

MultipleInputs.addInput Path (job, InputPath2, 

Text InputFormat.class,Mapper2.class) ; 

这 段 代 码 取 代 了 对 FileInputFormat. addInputPath() fil job. setMapperClass() 的 常规 
调用 。 两 份 数据 都 是 文本 文件 ,所 以 两 者 都 使 用 TextInputFormat。 但 这 两 个 数据 源 的 行 
格式 不 同 , 所 以 使 用 了 两 个 不 一 样 的 mapper。 重 要 的 是 两 个 mapper 的 输出 类 型 一 样 ,因此 
reducer 看 到 的 是 聚集 后 的 map 输出 ,并 不 知道 这 些 输入 是 由 不 同 的 mapper 产生 的 。 

Multiplelnputs 类 有 一 个 重 载 版 本 的 addInputPath() 方 法 , 它 没有 mapper 参数 : 

public static void addInputPath (JobConf conf, Path path, 

class< ? extends InputFormat> inputFommatClass) 


如 果 有 多 种 输入 格式 而 只 有 一 个 mapper Gil it Job 的 setMapper() 方 法 设 定 ) ,这 种 方 
法 很 有 用 。 


8.1.3 输出 格式 


针对 前 一 节 介 绍 的 各 种 输入 格式 ,Hadoop 都 有 相应 的 输出 格式 。OutputFormat 类 的 
层次 结构 如 图 8-2 所 示 。 

1. 文本 输出 

默认 的 输出 格式 是 TextOutputFormat, 它 把 每 条 记录 写 为 文本 行 。 它 的 键 和 值 可 以 是 
任意 类 型 ,因为 TextOutputFormat 调用 toString() 方 法 把 它们 转换 为 字符 串 。 每 个 键 / 值 
由 制 表 符 进行 分 隔 , 当 然 也 可 以 设 定 mapreduce. output. textoutputformat. separator 属性 
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TextOutputFormat 
OutputFormat<K,V> L FileOutputFormat Ka SequenceFileAsBinary 
org.apache.hadoop.mapreduce <K,V> Sequencefile OutputFormat 
OutputFormat<K,V> 
NullOutputFormat 
<K,V> 
DBOutputFormat<K,V> 
FilterOutputFormat LazyOutputFormat 
<K,V> r <K,V> 


图 8-2 OutputFormat 类 的 层次 结构 


( 老 版 本 API 中 的 mapred. textoutputformat. separator) 改变 默认 的 分 隔 符 。 与 
TextOutputFormat 对 应 的 输入 格式 是 KeyValueTextInputFormat, 它 通过 可 配置 的 分 隔 符 
将 键 / 值 对 文本 行 分 隔 。 

可 以 使 用 NullWritable 来 省 略 输出 的 键 或 值 (或 两 者 都 省 略 ,相当 于 NullOutputFormat 输 
出 格式 ,后 者 什么 也 不 输出 )。 这 也 会 导致 无 分 隔 符 输出 ,以 使 输出 适合 用 TextInputFormat 
读 取 。 

2. 二 进 制 输出 

1) SequenceFileOutputFormat 

正如 名 字 所 示 ,SequenceFileOutputFormat 将 它 的 输出 写 为 一 个 顺序 文件 。 如 果 输 出 
需要 作为 后 续 MapReduce 任务 的 输入 ,这 便 是 一 种 好 的 输出 格式 ,因为 它 的 格式 紧凑 ,很 容 
易 被 压缩 。 压 缩 由 SequenceFileOutputFormat 的 静态 方法 来 实现 。 

2) SequenceFileAsBinaryOuputFormat 

SequenceFileAsBinaryOutputFormat 与 SequenceFileAsBinaryInputForrmat 相对 应 ， 
它 把 键 / 值 对 作为 二 进 制 格式 写 到 一 个 SequenceFile 容器 中 。 

3) MapFileOutputFormat 

MapFileOutputFormat 把 MapFile 作为 输出 。MapFile 中 的 键 必 须 顺 序 添加 ,所 以 必 
须 确 保 reducer 输出 的 键 已 经 排 好 序 。 

reduce 输入 的 键 一 定 是 有 序 的 ,但 输出 的 键 由 reduce 函数 控制 ,MapReduce 框架 中 没 
有 硬性 规定 reduce 输出 键 必 须 有 序 。 所 以 要 使 用 MapFileOutputFormat, 就 需要 额外 的 限 
制 来 保证 reduce 输出 的 键 是 有 序 的 。 

3. 多 个 输出 

FileOutputFormat 及 其 子 类 产生 的 文件 放 在 输出 目录 下 。 每 个 reducer 一 个 文件 ,并 


且 文件 由 分 区 号 命名 : part-00000.part-O0001, 等 等 。 有 时 可 能 需要 对 输出 的 文件 名 进行 控 
制 , 或 让 每 个 reducer 输出 多 个 文件 。MapReduce 为 此 提供 了 MultipleOutputFormat 类 。 

MultipleOutputFormat 类 可 以 将 数据 写 到 多 个 文件 ,这 些 文件 的 名 称 源 于 输出 的 键 和 
值 或 者 任意 字符 串 。 这 允许 每 个 reducer( 或 者 只 有 map 作业 的 mapper) 创 建 多 个 文件 。 采 
用 name-m-nnnnn 形式 的 文件 名 用 于 map 输出 ,name-rnnnnn 形式 的 文件 名 用 于 reduce 输 
出 ,其 中 name 是 由 程序 来 设 定 的 任意 名 字 ,nnnnn 是 一 个 指明 块 号 的 整数 (从 0 开始 ) 。 块 
号 保证 从 不 同 块 (mapper 或 reducer) 写 的 输出 在 相同 名 字 的 情况 下 不 会 冲突 。 


多 扩展 阅读 


在 老 版 本 的 MapReduce API 中 ,有 两 个 类 用 于 产生 多 输出 : MultipleOutputFormat 和 


MnultipleOutputs。 这 两 个 库 的 功能 几乎 相同 , 表 8-6 是 一 个 简单 的 对 比 。 
Æ 8-6 MultipleOutputFormat 和 MultipleOutputs 
特 征 MultipleOutputFormat MultipleOutputs 
完全 控制 文件 名 和 目录 名 是 否 
不 同 输出 有 不 同 的 键 和 值 类 型 否 是 
从 同一 作业 的 map 和 reduce 使 用 否 是 
每 个 记录 多 个 输出 否 是 
与 任意 OutputFormat 一 起 使 用 否 , 需 要 子 类 是 


简单 来 说 ,MultipleOutputs 功能 更 齐全 ,但 MultipleOutputFormat 对 输出 的 目录 
结构 和 文件 命名 有 更 多 控制 。 

在 新 版 的 MapReduce API 中 ,只 有 MultipleOutputs 类 , 它 支持 老 版 本 API 中 两 个 
多 输出 类 的 所 有 特征 。 


4. 延迟 输出 

FileOutputFormat 的 子 类 会 产生 输出 文件 (part-nnnnn), 即 使 文件 是 空 的 。 有 些 应 用 
倾向 于 不 创建 空 文件 ,此 时 LazyOutputFormat 就 有 用 了 。 它 是 一 个 封装 输出 格式 ,可 以 保 
证 指定 分 区 第 一 条 记录 输出 时 才 真 正 创 建文 件 。 要 使 用 它 ,用 obConf 和 相关 的 输出 格式 
作为 参数 来 调用 setOutputFormatClass() 方 法 即 可 。 

Streaming 和 Pipes 支持 -LazyOutput 选项 来 启用 LazyOutputFormat 功能 。 


82 JavaAPI 解 析 


Hadoop 的 主要 编程 语言 是 java, 因 而 Java API 是 最 基本 的 对 外 编程 接口 。 当 前 各 个 
版 本 的 Hadoop 均 同时 存在 新 旧 两 种 API。 由 于 目前 应 用 的 API 大 部 分 为 新 API, 所 以 本 
节 将 对 比 新 旧 两 个 版 本 主要 讲解 新 API 的 设计 思路 ,主要 内 容 包 括 使 用 实例 接口 设计 、 在 
MapReduce 运行 时 环境 中 的 调用 时 机 等 。 
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8.2.1 作业 配置 与 提交 


1. Hadoop 配置 文件 介绍 

在 Hadoop 中 ,Common、HDFS 和 MapReduce 各 有 对 应 的 配置 文件 ,用 于 保存 对 应 模 
块 中 可 配置 的 参数 。 这 些 配 置 文件 均 为 XML 格式 且 由 两 部 分 构成 : 系统 默认 配置 文件 和 
管理 员 自 定义 配置 文件 。 其 中 ,系统 默认 配置 文件 分 别 是 core-default. xml, hdfs- default, xml 
和 mapred-default. xml, 它们 包含 了 所 有 可 配置 属性 的 默认 值 。 而 管理 员 自 定义 配置 文 
件 分 别 是 core- site. xml, hdfs-site. xml 和 mapred-site. xml。 它 们 由 管理 员 设 置 ,主要 用 
于 定义 一 些 新 的 配置 属性 或 者 覆盖 系统 默认 配置 文件 中 的 默认 值 。 通 常 这 些 配置 一 
且 确 定 , 便 不 能 被 修改 (如 果 想 修改 , 需 重 新 启动 Hadoop)。 需 要 注意 的 是 ,core- 
default. xml 和 core-site. xml 属于 公共 基础 库 的 配置 文件 ,默认 情况 下 , Hadoop 总 会 优 
先 加 载 它们 。 

在 Hadoop 中 ,每 个 配置 属性 主要 包括 三 个 配置 参数 : name, value 和 description, 分 别 
表示 属性 名 、 属 性 值 和 属性 描述 。 其 中 ,属性 描述 仅仅 用 来 帮助 用 户 理解 属性 的 含义 ， 
Hadoop 内 部 并 不 会 使 用 它 的 值 。 此 外 ,Hadoop 为 配置 文件 添加 了 两 个 新 的 特性 : final 参 
数 和 变量 扩展 。 

(1) final 参数 。 如 果 管 理 员 不 想 让 用 户 程序 修改 某 些 属 性 的 属性 值 , 可 将 该 属性 的 
final 参数 置 为 true, 例 如 : 


<property> 
<name>mapred.map.tasks.speculative.execution< /name> 
<value> true< /value> 
< final> true< /final> 
</property> 
管理 员 一 般 在 XXX-site. xml 配置 文件 中 为 某 些 属性 添加 final 参数 ,以 防止 用 户 在 应 
用 程序 中 修改 这 些 属性 的 属性 值 。 
(2) 变量 扩展 。 当 读 取 配置 文件 时 ,如 果 某 个 属性 存在 对 其 他 属性 的 引用 , 则 Hadoop 
首先 会 查找 引用 的 属性 是 否 为 下 列 两 种 属性 之 一 。 如 果 是 , 则 进行 扩展 。 
D 其 他 已 经 定义 的 属性 ; 
© Java 中 System. getProperties() 函数 可 获取 属性 。 
例如 ,如 果 一 个 配置 文件 中 包含 以 下 配置 参数 : 


<property> 
<name> hadoop.tmp.dir< /name> 
<value> /tmp/hadoop-$ {user.name}< /value> 
</property> 
<property> 
<name> mapred.temp.dir< /name> 
<value>$ {hadoop.tmp.dir}/mapred/temp< /value> 
</property> 


则 当 用 户 想 要 获取 属性 mapred. temp. dir 的 值 时 . Hadoop 会 将 hadoop. tmp. dir 解析 
成 该 配置 文件 中 另外 一 个 属性 的 值 ,而 user. name 则 被 替换 成 系统 属性 user. name 的 值 。 


2. MapReduce 作业 配置 与 提交 

在 MapReduce 中 ,每 个 作业 由 应 用 程序 和 作业 配置 两 部 分 组 成 。 其 中 ,作业 配置 内 容 
包括 环境 配置 和 用 户 自 定 义 配置 两 部 分 。 环 境 配置 由 Hadoop 自动 添加 ,主要 由 mapred- 
default. xml 和 mapred-site. xml 两 个 文件 中 的 配置 选项 组 合 而 成 ;用 户 自 定 义 配 置 则 由 用 
户 自己 根据 作业 特点 个 性 化 定制 而 成 ,比如 用 户 可 设置 作业 名 称 , 以 及 Mapper/Reducer、 
Reduce Task 个 数 等 。 在 新 旧 两 套 API 中 ,作业 配置 接口 发 生 了 变化 ,首先 通过 一 个 例子 感 
受 一 下 使 用 上 的 不 同 。 

IH API 作业 配置 实例 : 

JobConf job= new JobConf (new Configuration (), MyJob.class); 

job. setJobName ("myjob") ; 

job. setMapperClass (MyJob.MyMapper.class) ; 


job. setReducerClass (MyJob.MyReducer.class) ; 
JobClient .runJob (job) ; 


新 API 作业 配置 实例 : 


Configuration conf=new Configuration (); 

Job job=new Job(conf, "myjob "); 

job. setJarByClass (MyJob.class) ; 

job. setMapperClass (MyJob.MyMapper.class) ; 

job. setReducerClass (MyJob.MyReducer.class) ; 

System.exit (job.waitForCompletion(true) ? 0: 1); 

从 以 上 两 个 实例 可 以 看 出 ,新 版 API 用 Job 类 代替 了 JobConf Al JobClient 两 个 类 。 这 
样 , 仅 使 用 一 个 类 的 同时 可 完成 作业 配置 和 作业 提交 相关 功能 ,进一步 简化 了 作业 编写 方 
式 。 本 小 节 重 点 从 设计 角度 分 析 新 旧 两 套 API 中 作业 配置 的 相关 实现 细节 。 


8.2.2 InputFormat 接口 的 设计 与 实现 


InputFormat 主要 用 于 描述 输入 数据 的 格式 , 它 提供 以 下 两 个 功能 。 

CL) 数据 切 分 : 按照 某 个 策略 将 输入 数据 切 分 成 若干 个 split ,以便 确定 Map Task 个 数 
以 及 对 应 的 split。 

(2) 为 Mapper 提供 输入 数据 : 给 定 某 个 split, 能 将 其 解析 成 一 个 个 key/value 对 。 

本 文 将 介绍 Hadoop 如 何 设 计 InputFormat 接口 ,以 及 提供 了 哪些 常用 的 InputFormat 

1. 旧版 API 的 InputFormat 解析 

旧版 API 的 InputFormat 类 如 图 8-3 所 示 。 

在 旧版 API 中 ,InputFormat 是 一 个 接口 . 它 包含 两 种 方法 : 


InputSplit[] getSplits (JobConf job, int numSplits) throws IOException; 
RecordReader< K, V> getRecordReader (InputSplit split, JobConf job, Reporter reporter) throws 
IOException; 


getSplits 方法 主要 完成 数据 切 分 的 功能 , 它 会 尝试 着 将 输入 数据 切 分 成 numSplits 个 
InputSplit, InputSplit 有 以 下 两 个 特点 。 
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<<interface>> 


InputFormat<K,V> 


+getSplits(in job:JobConf,in numSplits:int) :Inputsplit[] 
+getRecordReader (in split:InputSplit,in job:JobConf,in report:Reporter) :RecordReader<K, V> 
> 


<<interface>> <<interface>> 
RecordReader<K,V> InputSplit 

+next (in key:K,in value:V) :boolean +getLength () : long 

+createKey() :区 +getLocations () :String() 


+createValue():V 
+getPos():long 
+close() 
+getProgress():float 


<<interface>> 


Writable 


图 8-3 旧版 API 的 InputFormat 类 


(1) 逻辑 分 片 。InputSplit 只 是 在 逻辑 上 对 输入 数据 进行 分 片 ,并 不 会 在 磁盘 上 将 其 切 
分 成 分 片 进行 存储 。InputSplit 只 记录 了 分 片 的 元 数据 信息 ,比如 起 始 位 置 ,长 度 以 及 所 在 
的 节点 列表 等 。 

(2) 可 序列 化 。 在 Hadoop 中 ,对 象 序列 化 主要 有 两 个 作用 : 进程 间 通 信和 永久 存储 。 
此 处 ,InputSplit 支持 序列 化 操作 主要 是 为 了 进程 间 通 信 。 作 业 被 提交 到 JobTracker 之 前 ， 
Client 会 调用 作业 InputFormat 中 的 getSplits 函数 ,并 将 得 到 的 InputSplit 序列 化 到 文件 
中 。 这 样 , 当 作业 提交 到 JobTracker 端 对 作业 初始 化 时 ,可 直接 读 取 该 文件 ,解析 出 所 有 
InputSplit ,并 创建 对 应 的 MapTask. 

getRecordReader 方法 返回 一 个 RecordReader 对 象 ,该 对 象 可 将 输入 的 InputSplit 解 
析 成 若干 个 key/value 对 。MapReduce 框架 在 MapTask 执行 过 程 中 ,会 不 断 调用 
RecordReader 对 象 中 的 方法 ,和 迭代 获取 key/value 对 并 交 给 map() 函数 处 理 , 主 要 代码 (经 
过 简化 ) 如 下 。 


// 调 用 InputSplit 的 getRecordReader 方法 获取 RecordReader< K1,V1> input 


K1 key= input.createKey (); 

V1 value= input.createValue () 7 

while (input.next (key, value)) { 
// 调 用 用 户 编写 的 map () 函数 

} 

input .close(); 


前 面 分 析 了 InputFormat 接口 的 定义 , 接 下 来 介绍 系统 自 带 的 各 种 InputFormat 实现 。 
为 了 方便 用 户 编写 MapReduce 程序 , Hadoop 自 带 了 一 些 针 对 数据 库 和 文件 的 
InputFormat 实现 ,具体 如 图 8-4 所 示 。 通 常 而 言 ,用 户 需 要 处 理 的 数据 均 以 文件 形式 存储 
到 HDFS 上 ,所 以 这 里 重点 针对 文件 的 InputFormat 实现 进行 讨论 。 

如 图 8-4 所 示 , 所 有 基于 文件 的 InputFormat 实现 的 基 类 是 FileInputFormat, 并 由 此 派生 
出 针对 文本 文件 格式 的 TextInputFormat , KeyValueTextInputFormat 和 NLineInputFormat. 


InputFormat 
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图 8-4 Hadoop MapReduce 自 带 InputFormat 实现 的 类 层次 


针对 二 进 制 文件 格式 的 SequenceFileInputFormat 等 。 整 个 基于 文件 的 InputFormat 体系 
的 设计 思路 是 ,由 公共 基 类 FileInputFormat 采用 统一 的 方法 对 各 种 输入 文件 进行 切 分 , 比 
如 按照 某 个 固定 大 小 等 分 ,而 由 各 个 派生 InputFormat 自己 提供 机 制 将 进一步 解析 
InputSplit。 对 应 到 具体 的 实现 是 , 基 类 FileInputFormat 提供 getSplits 实现 ,而 派生 类 提 
供 getRecordReader 实现 。 

为 了 深入 理解 这 些 InputFormat 的 实现 原理 ,选取 extInputFormat 与 SequenceFileInputFormat 
进行 重点 介绍 。 

首先 介绍 基 类 FileInputFormat 的 实现 。 它 最 重要 的 功能 是 为 各 种 InputFormat 提供 
统一 的 getSplits 函数 。 该 函数 实现 中 最 核心 的 两 个 算法 是 文件 切 分 算法 和 host 选择 
算法 。 

(1) 文件 切 分 算法 。 

文件 切 分 算法 主要 用 于 确定 InputSplit 的 个 数 以 及 每 个 InputSplit 对 应 的 数据 段 。 
FileInputFormat 以 文件 为 单位 切 分 生成 InputSplit。 对 于 每 个 文件 ,由 以 下 三 个 属性 值 确 
定 其 对 应 的 InputSplit 的 个 数 。 

O goalSize。goalSize 是 根据 用 户 期 望 的 InputSplit 数目 计算 出 来 的 , 即 totalSize/ 
numSplits。 其 中 ,totalSize 为 文件 总 大 小 ;numSplits 为 用 户 设 定 的 MapTask 个 数 ,默认 情 
况 下 是 1。 

@ minSize。minSize 是 InputSplit 的 最 小 值 , 由 配置 参数 mapred, min. split. size 确定 ， 
默认 是 1 。 

@ blockSize。blockSize 是 文件 在 HDFS 中 存储 的 block 大 小 ,不 同文 件 可 能 不 同 , 默 
认 是 64MB。 

这 三 个 参数 共同 决定 InputSplit 的 最 终 大 小 ,计算 方法 如 下 : 


splitSize=max{minSize,min{goalSize,blockSize}} 


一 旦 确定 splitSize 值 后 , FileInputFormat 将 文件 依次 切 成 大 小 为 splitSize 的 
InputSplit ,最 后 剩 下 不 足 splitSize 的 数据 块 单独 成 为 一 个 InputSplit。 

【 例 8-5) 输入 目录 下 有 filel、file2 和 file3 三 个 文件 ,大 小 依次 为 1MB、32MB 和 
250MB. # blockSize 采用 默认 值 64MB, 则 不 同 minSize 和 goalSize 下 ,file3 切 分 结果 如 
表 8-7 所 示 ( 三 种 情况 下 ,filel 与 file2 切 分 结果 相同 , 均 为 1 个 InputSplit)。 
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# 8-7 minSize.goalSize.splitSize 4 InputSplit 对 应 关系 


inSi Isi litSi file3 对 应 的 输入 目录 对 应 的 
SEN MET InputSplit 数目 InputSplit 总 数 
totalSize 
M! 
pe (CnumSplits 一 1) nee É g 
32MB totalSize/5 50MB 5 7 
128MB totalSize/2 128MB 2 4 


结合 表 和 公式 可 以 知道 ,如 果 想 让 InputSplit 尺寸 大 于 block 尺寸 , 则 直接 增 大 配置 参 
数 mapred. min. split. size 即 可 。 

(2) host 选择 算法 。 

待 InputSplit 切 分 方案 确定 后 ,下 一 步 要 确定 每 个 InputSplit 的 元 数据 信息 。 

这 通常 由 一 file,start,length,hosts 二 四 部 分 组 成 ,分 别 表 示 InputSplit 所 在 的 文件 .起 
始 位 置 ,长度 以 及 所 在 的 host( 节 点 ) 列 表 。 其 中 ,前 三 项 很 容易 确定 ,难点 在 于 host 列表 的 
选择 方法 。 

InputSplit 的 host 列表 选择 策略 直接 影响 到 运行 过 程 中 的 任务 本 地 性 。HDFS 上 的 文 
件 是 以 block 为 单位 组 织 的 ,一 个 大 文件 对 应 的 block 可 能 遍布 整个 Hadoop 集群 ,而 
InputSplit 的 划分 算法 可 能 导致 一 个 InputSplit 对 应 多 个 block ,这 些 block 可 能 位 于 不 同 
节点 上 ,这 使 得 Hadoop 不 可 能 实现 完全 的 数据 本 地 性 。 为 此 ,Hadoop 将 数据 本 地 性 按照 
代价 划分 成 三 个 等 级 : node locality, rack locality 和 datacenter locality (Hadoop 还 未 实现 
locality 级 别 ) 。 在 进行 任务 调度 时 ,会 依次 考虑 这 3 个 节点 的 locality, 即 优先 让 空闲 资 
源 处 理 本 节点 上 的 数据 ,如 果 节点 上 没有 可 处 理 的 数据 , 则 处 理 同 一 个 机 架 上 的 数据 ,最 差 
情况 是 处 理 其 他 机 架 上 的 数据 (但 是 必须 位 于 同一 个 数据 中 心 ) 。 

虽然 InputSplit 对 应 的 block 可 能 位 于 多 个 节点 上 ,但 考虑 到 任务 调度 的 效率 ,通常 不 
会 把 所 有 节点 加 到 InputSplit 的 host 列表 中 ,而 是 选择 包含 (该 InputSplit) 数 据 总 量 最 大 
的 前 几 个 节点 (Hadoop 限制 最 多 选择 10 个 ,多 余 的 会 过 滤 掉 ), 以 作为 任务 调度 时 判断 任 
务 是 否 具 有 本 地 性 的 主要 凭证 。 为 此 ,FileInputFormat 设计 了 一 个 简单 有 效 的 启发 式 算 
法 : 首先 按照 rack 包含 的 数据 量 对 rack 进行 排序 ,然后 在 rack 内 部 按照 每 个 node 包含 的 
数据 量 对 node 排序 ,最 后 取 前 N 个 node 的 host 作为 InputSplit 的 host 列表 ,这 里 的 N 为 
block 副本 数 。 这 样 , 当 任务 调度 器 调度 Task 时 ,只 要 将 Task 调度 给 位 于 host 列表 的 节 
点 ,就 认为 该 Task 满足 本 地 性 。 

【 例 8-6] 某 个 Hadoop 集群 的 网 络 拓扑 结构 如 图 8-5 所 示 ,HDFS 中 block 副本 数 为 
3, 某 个 InputSplit 包含 3 个 block, 大 小 依次 是 100、150 和 75 ,很 容易 计算 ,4 个 rack 包含 的 
(该 InputSplit 的 ) 数 据 量 分 别 是 175,250,150 和 75。rack2 中 的 node3 和 node4,rackl 中 
的 nodel 将 被 添加 到 该 InputSplit 的 host 列表 中 。 

从 以 上 host 选择 算法 可 知 , 当 InputSplit 尺寸 大 于 block 尺寸 时 ,Map Task 并 不 能 实现 完 
全 数据 本 地 性 ,也 就 是 说 ,总 有 一 部 分 数据 需要 从 远程 节点 上 读 取 ,因而 可 以 得 出 以 下 结论 : 

当 使 用 基于 FileInputFormat 实现 InputFormat 时 .为 了 提高 Map Task 的 数据 本 地 
性 ,应 尽量 使 InputSplit 大 小 与 block 大 小 相同 。 
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O 表示 某 个 InputSplit 包 含 的 是 三 个 block 
图 8-5 某 个 Hadoop 集群 的 网 络 拓扑 结构 


分 析 完 FileInputFormat 实现 方法 , 接 下 来 分 析 派 生 类 TextInputFormat 与 
SequenceFileInputFormat 的 实现 。 前 面 提 到 ,由 派生 类 实现 getRecordReader 函数 ,该 函数 
返回 一 个 RecordReader 对 象 。 它 实现 了 类 似 于 迭代 器 的 功能 ,将 某 个 InputSplit 解析 成 一 
个 个 key/value 对 。 在 具体 实现 时 ,RecordReader 应 考虑 以 下 两 点 。 

(1) 定位 记录 边界 。 为 了 能 够 识别 一 条 完整 的 记录 ,记录 之 间 应 该 添加 一 些 同 步 标识 。 
对 于 TextInputFormat, 每 两 条 记录 之 间 存 在 换行 符 ; 对 于 SequenceFileInputFormat, 每 隔 
若干 条 记录 会 添加 固定 长 度 的 同步 字符 串 。 通 过 换行 符 或 者 同步 字符 串 , 它 们 很 容易 定位 
到 一 个 完整 记录 的 起 始 位 置 。 另 外 ,由 于 FileInputFormat 仅仅 按照 数据 量 多 少 对 文件 进 
行 切 分 ,因而 InputSplit 的 第 一 条 记录 和 最 后 一 条 记录 可 能 会 被 从 中 间 切 开 。 为 了 解决 这 
种 记录 跨越 InputSplit 的 读 取 问题 ,RecordReader 规定 每 个 InputSplit 的 第 一 条 不 完整 记 
录 划 给 前 一 个 InputSplit 处 理 。 

(2) 解析 key/value。 定 位 到 一 条 新 的 记录 后 , 需 将 该 记录 分 解 成 key 和 value 两 部 分 。 
对 于 TextInputFormat ,每 一 行 的 内 容 即 为 value, 而 该 行 在 整个 文件 中 的 偏 移 量 为 key。 对 
于 SequenceFileInputFormat ,每 条 记录 的 格式 为 


[record length] [key length] [key] [value] 


其 中 ,前 两 个 字段 分 别 是 整 条 记录 的 长 度 和 key 的 长 度 , 均 为 4B, 后 两 个 字段 分 别 是 
key 和 value 的 内 容 。 知 道 每 条 记录 的 格式 后 ,很 容易 解析 出 key 和 value。 

2. 新 版 API 的 InputFormat 解析 

新 版 API 的 InputFormat 类 如 图 8-6 所 示 。 新 API 与 昌 API 比较 ,在 形式 上 发 生 了 较 
大 变化 ,但 仔细 分 析 ,发 现 仅仅 是 对 之 前 的 一 些 类 进行 了 封装 。 正 如 前 面 介 绍 的 那样 ,通过 
封装 ,使 接口 的 易 用 性 和 扩展 性 得 以 增强 。 

此 外 ,对 于 基 类 FileInputFormat, 新 版 API 中 有 一 个 值得 注意 的 改动 : InputSplit 划分 
算法 不 再 考虑 用 户 设 定 的 Map Task 个 数 . 而 用 mapred. max. split. size( 记 为 maxSize) ft 
替 , 即 InputSplit 大 小 的 计算 公式 变 为 


splitSize=max{minSize, min{maxSize, blockSize}} 


cinrerztace>> 


tprogress() 


TaskAttemptContext 
|-taskID:TaskAttempt ID 
lgetTaskattemptD():TaskattemptID 
|+getscatus (in msg:String) 
+getstatus (): P 
|tprogress () 


|+getsplits (in context:JobContext) :List<Inputsplit> 
|+createRecordReader (in split:Inputsplit,in context:TaskAttemptContext) : RecordReader<KEYIN, VALUEIN> 


图 8-6 新 API 中 InputFormat 类 


8.2.3 OutputFormat 接口 的 设计 与 实现 


OutputFormat 主要 用 于 描述 输出 数据 的 格式 , 它 能 够 将 用 户 提 供 的 key/value 对 写 入 
特定 格式 的 文件 中 。 本 小 节 将 介绍 Hadoop 如 何 设计 OutputFormat 接口 ,以 及 一 些 常用 的 
OutputFormat 实现 。 

1. 旧版 API 的 OutputFormat 解析 

如 图 8-7 所 示 ,在 旧版 API 中 ,OutputFormat 是 一 个 接口 , 它 包含 两 个 方法 : 


RecordWriter < K, V > getRecordWriter (FileSystem ignored, JobConf job, String name, 
Progressable progress) throws IOException; 
void checkOutputSpecs (FileSystem ignored, JobConf job) throws IOException; 


<<interface>> 
OutputFormat<k,V> 


|}+getRecordWriter(in ignored: FileSystem,in job:JobConf,in name:String,in progress: Progressable) :RecordWriter<K,V> 
|tcheckOutputSpecs(in ignored:FileSystem,in job:JobConf) 


+progress() +write (in key:K,in value:v) 
+close (in reporter:Reporter) 


图 8-7 旧版 API 的 OutPutFormat 类 


checkOutputSpecs 方法 一 般 在 用 户 作 业 被 提交 到 JobTracker 之 前 ,由 JobClient 自动 


调用 ,以 检查 输出 目录 是 否 合法 。 
getRecordWriter 方法 返回 一 个 RecordWriter 类 对 象 。 该 类 中 的 方法 write 接收 一 个 


key/value 对 ,并 将 之 写 人 文件。 在 Task 执行 过 程 中 , MapReduce 框架 会 将 map() 或 者 


reduce() pA Br" AE NW ARIE A write 方法 ,主要 代码 (经 过 简化 ) 如 下 。 
假设 用 户 编写 的 map RAN F : 


public void map (Text key, Text value, OutputCollector< Text，Text> output, 
Reporter reporter) throws IOException { 


// 根据 当前 key/value 产生 新 的 输出 <newKey, newValue> ,并 输出 


output .collect (newKey, newValue) ; 
} 


则 函数 output. collectCnewKey，newValue) 内 部 执行 代码 如 下 : 


RecordWriter<K，V> out= job.getOutputFormat () .getRecordWriter (...); 
out.write(newKey, newValue); 


Hadoop 自 带 了 很 多 OutputFormat 实现 ,它们 与 InputFormat 实现 相对 应 ,具体 如 
图 8-8 所 示 。 所 有 基于 文件 的 OutputFormat 实现 的 基 类 为 FileOutputFormat, 并 由 此 派生 
出 一 些 基 于 文本 文件 格式 、 二 进 制 文件 格式 的 或 者 多 输出 的 实现 。 


OutputFormat 


DBOutputFormat | FileOutputFormat NullOutputFormat 
不 


MapFileOutputFormat MultipleOutputFormat SequenceFileOutputFormat TextOutputFormat 


MultipleSequenceFileOutputFormat | MultipleTextFileOutputFormat 


图 8-8 Hadoop MapReduce 自 带 Mapper/Reduce 实现 的 类 层次 


为 了 深入 分 析 OutputFormat 的 实现 方法 ,我 们 选取 比较 有 代表 性 的 FileOutputFormat 
类 进行 分 析 。 同 分 析 InputFormat 实现 的 思路 一 样 , 先 分 析 基 类 FileOutputFormat ,再 分 析 
其 派生 类 TextOutputFormat。 

基 类 FileOutputFormat 需要 提供 所 有 基于 文件 的 OutputFormat 实现 的 公共 功能 ,总 
结 起 来 ,主要 有 以 下 两 个 。 

1) 实现 checkOutputSpecs 接口 

该 接口 在 作业 运行 之 前 被 调用 ,默认 功能 是 检查 用 户 配置 的 输出 目录 是 否 存在 ,如 果 存 
在 则 抛 出 异常 ,以 防止 之 前 的 数据 被 覆盖 。 

2) 处 理 side-effect file 

任务 的 side-effect file 并 不 是 任务 的 最 终 输 出 文件 ,而 是 具有 特殊 用 途 的 任务 专属 文 
件 。 它 的 典型 应 用 是 执行 推测 式 任 务 。 在 Hadoop 中 ,因为 硬件 老化 ,网 络 故障 等 原因 , 同 
一 个 作业 的 某 些 任 务 执行 速度 可 能 明显 慢 于 其 他 任务 ,这 种 任务 会 拖 慢 整个 作业 的 执行 速 
度 。 为 了 对 这 种 “ 慢 任务 ”进行 优化 .Hadoop 会 为 之 在 另外 一 个 节点 上 启动 一 个 相同 的 任 


eatin nhl he nfl r r nt Fe 
vmar iarr ED 


务 ,该 任务 便 被 称 为 推测 式 任务 ,最 先 完成 任务 的 计算 结果 便 是 这 块 数据 对 应 的 处 理 结果 。 
为 防止 这 两 个 任务 同时 往 一 个 输出 文件 中 写 入 数据 时 发 生 写 冲突 ,FileOutputFormat 会 为 
每 个 Task 的 数据 创建 一 个 side-effect file, 并 将 产生 的 数据 临时 写 入 该 文件 , 待 Task 完成 
后 ,再 移动 到 最 终 输出 目录 中 。 这 些 文件 的 相关 操作 ,比如 创建 .删除 .移动 等 , 均 由 
OutputCommitter 完成 。 它 是 一 个 接口 ,Hadoop 提供 了 默认 实现 FileOutputCommitter, 用 
户 也 可 以 根据 自己 的 需求 编写 OutputCommitter 实现 ,并 通过 参数 {mapred. output. 
committer. class} 指 定 。OutputCommitter 接口 定义 以 及 FileOutputCommitter 对 应 的 实现 
如 表 8-8 所 示 。 


表 8-8 OutputCommitter 接口 定义 以 及 FileOutputCommitter 对 应 的 实现 


方 E 何 时 被 调用 FileOutputCommitter 实现 
setupJob 作业 初始 化 创建 临时 目录 $ { mapred. out. dir} /_temporary 

A ER 删除 临时 目录 ,并 在 $ {mapred. out. dir} 目 录 下 创建 空 文 
commitJob 作业 成 功 运行 完成 {SUCCESS 
abortJob 作业 运行 失败 删除 临时 目录 


不 进行 任何 操作 。 原 本 是 需要 在 临时 目录 下 创建 side- 
effect file 的 ,但 它 是 用 时 创建 的 (create on demand) 


needsTaskCommit | 判断 是 否 需 要 提交 结果 | 只 要 存在 side-effect file, 就 返回 true 
提交 结果 ,即将 side-effect file 移动 到 $ {mapred. out. dir} 


setupTask 任务 初始 化 


commitTask 任务 成 功 运行 完成 目录 下 
abortTask 任务 运行 失败 删除 任务 的 side-effect file 
注意 ,默认 情况 下 , 当 作业 成 功 运行 完成 后 ,会 在 最 终结 果 目 录 $ {mapred. out. dir) F 


生成 空 文件 . SUCCESS。 该 文件 主要 为 高 层 应 用 提供 作业 运行 完成 的 标识 。 例 如 ,Oozie 
需要 通过 检测 结果 目录 下 是 否 存 在 该 文件 判断 作业 是 否 运 行 完成 。 

2. 新 版 API 的 OutputFormat 解析 

如 图 8-9 所 示 ,除了 接口 变 为 抽象 类 外 ,新 APT 中 的 OutputFormat 增加 了 一 个 新 的 方 
法 : getOutputCommitter, 以 允许 用 户 自己 定制 合适 的 OutputCommitter 实现 。 


8.2.4 Mapper 与 Reducer 解析 


1. 旧版 API 的 Mapper/Reducer 解析 

Mapper/Reducer 中 封装 了 应 用 程序 的 数据 处 理 迎 辑 。 为 了 简化 接口 ,MapReduce 要 
求 所 有 存储 在 底层 分 布 式 文件 系统 上 的 数据 均 要 解释 成 key/value 的 形式 ,并 交 给 
Mapper/Reducer 中 的 map/reduce 函数 处 理 , 产 生男 外 一 些 key/value. 

Mapper 与 Reducer 的 类 体系 非常 类 似 ,下 面 以 Mapper 为 例 。Mapper 类 如 图 8-10 所 
示 , 包 括 初 始 化 .Map 操作 和 清理 三 部 分 。 

1) 初始 化 

Mapper 继承 了 JobConfigurable 接口 。 该 接口 中 的 configure 方法 允许 通过 JobConf 
参数 对 Mapper 进行 初始 化 。 

2) Map 操作 


t 
JtabortJob(in jobContext:JobContext,in state:JobStatus.State) 
tsetupTask (in taskContext:TaskAttemptContext) 
+needsTaskCommit (in taskContext:TaskAttemptContext) 
+commitTask (in taskContext:TaskAttemptContext) 


+write (in key:K,in value:V) 


+close(in context: Taskat' 


+getRecordWrite(in context: TaskattemptContext) :RecordWriter<K, V> 
+checkoutputspecs (in context: JobContext) 
}+getoutputCommitter(in context: TaskAttemptContext) :OutputCommitter 


图 8-9 新 版 API 的 OutputFormat 类 


<<interface>> 
Java.io.Closeable 


<<interafce>> 
JobConfigurable 


| +configure (in job:Jobconf) 


<<interface>> 


OutputCollector<K,V> 


+collect(in key:K,in value:v) 


图 8-10 IH} API 的 Mapper % 


MapReduce 框架 会 通过 InputFormat 中 RecordReader, 从 InputSplit 获取 一 个 个 key/ 
value 对 ,并 交 给 下 面 的 mapQ PA Bb FE 

void map (K1 key, V1 value，OutputCollector<K2，V2> output, Reporter reporter) 

throws IOException; 

该 函数 的 参数 除了 key 和 value 之 外 ,还 包括 OutputCollector 和 Reporter 两 个 类 型 的 
参数 ,分 别 用 于 输出 结果 和 修改 Counter 值 。 

3) 清理 
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Mapper 通过 继承 Closeable 接口 ( 它 又 继承 了 Java IO 中 的 Closeable 接口 ) 获 得 close 
方法 ,用 户 可 通过 实现 该 方法 对 Mapper 进行 清理 。 

MapReduce 提供 了 很 多 Mapper/Reducer 实现 ,但 大 部 分 功能 比较 简单 ,具体 如 图 8-11 
所 示 。 它 们 对 应 的 功能 如 下 。 

(1) ChainMapper/ChainReducer: 用 于 支持 链 式 作 业 。 

(2) IdentityMapper/IdentityReducer: 对 于 输入 key/value 不 进行 任何 处 理 , 直 接 
输出 。 

(3) InvertMapper: 交换 key/value 位 置 。 

(4) RegexMapper: 正则 表达 式 字 符 串 匹 配 。 

(5) TokenMapper: 将 字符 串 分 割 成 若干 个 token (单词 ), 可 用 作 WordCount 的 
Mapper。 

(6) LongSumReducer: 以 key 为 组 ,对 long 类 型 的 value 求 累 加 和 。 


Mapper 


| i 


ChainMapper IdentityMapper InvertMapper RegexMapper TokenMapper 


Reducer 


不 
| 


ChainReducer IdentityReducer LongSumReducer 


图 8-11 HadoopMapReduce 自 带 Mapper/Reducer 实现 的 类 层次 


对 于 一 个 MapReduce 应 用 程序 ,不 一 定 非 要 存在 Mappers MapReduce 框架 提供 了 比 
Mapper 更 通用 的 接口 MapRunnable, 如 图 8-12 所 示 。 用 户 可 以 实现 该 接口 以 定制 
Mapper 的 调用 方式 或 者 自己 实现 key/value 的 处 理 逻 辑 , 例 如 , Hadoop Pipes 自行 实现 了 
MapRunnable, 直接 将 数据 通过 Socket 发 送 给 其 他 进程 处 理 。 提 供 该 接口 的 另外 一 个 好 处 
是 允许 用 户 实现 多 线程 Mapper. 


<<interface>> 
JobConfigurable 


i 


<<interface>> 
MapRunnable<K1,V1,K2,V2> 


| +run (in input:RecordReader<K1,V1>,in output:OutputCollector<K2,V2>,in reporter:Reporter 


图 8-12 MapReduce 类 


如 图 8-13 所 示 , MapReduce 提供 了 两 个 MapReduce 实现 ,分 别 是 MapRunner 和 
MaultithreaderMapRunner。 其 中 , MapRunner 为 默认 实现 。MultithreadedMapRunner 实 
现 了 一 种 多 线程 的 MapRunnable。 默 认 情 况 下 ,每 个 Mapper 启动 10 个 线程 ,通常 用 于 


CPU 类 型 的 作业 一 一 提供 吞吐 率 。 


MapRunnable<k1,V1,K2,V2> 
MapRunner<K1,V1,K2,V2> MultithreadedMapRunner<k1,V1,K2,V2> 


图 8-13 HadoopMapReduce 自 带 MapRunnable 实现 的 类 层次 


2. 新 版 API 的 Mapper/Reducer 解析 
由 图 8-14 可 知 ,新 API 在 旧 API 基础 上 发 生 了 以 下 几 个 变化 。 


|+progress, 
sotStatus (in status:String) 
toutputCommitter () :OutputCommitter 


MapContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> ReduceContext<KEYIN,VALUEIN, KEYOUT,VALUEOUT> 
“reader: RecordReader<kEYIN, VALUEIN> ‘iterable:Valuerterable 
|-split: Inputsplit reporter: Progressable 
[+MapContext (in cont, in taskid, i reader, in writer, in committer, ia reporter, inaplit) yReduceContext (in conf, in taskid, in inpueMeyCounter,in AnputVelueCounter, 1n") 
I+getinputsplit () :Inputsplit tCurrentKey () :KEYIN 


TO | 


l:setup(in context:Mapper. Context) |+setup (in context:Reducer.Context) 


| +map (in key, in value, in context:Mapper.Context) |+reduce (sn key:FEYIN, in vaives:Itezable<VALUEIN>, in content :Reducer.Context) 
tcleanup (in context:Mapper.Context) |+cleanup (in context:Reducer.Context) 
l+run (in context:Mapper.Context) |+ran (in context :Reducer.Context) 


8-14 新 版 API 的 Mapper/Reducer 类 


(1) Mapper 由 接口 变 为 抽象 类 .上 且 不 再 继承 JobConfigurable 和 Closeable 两 个 接口 ， 
而 是 直接 在 类 中 添加 了 setup 和 cleanup 两 个 方法 进行 初始 化 和 清理 工作 。 

(2) 将 参数 封装 到 Context 对 象 中 ,这 使 得 接口 具有 良好 的 扩展 性 。 

(3) 去 掉 MapRunnable 接口 ,在 Mapper 中 添加 run 方法 ,以 方便 用 户 定制 mapO PARK 
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的 调用 方法 ,run 默认 实现 与 旧版 本 中 MapRunner 的 run 实现 一 样 。 
(4) 新 API 中 Reducer 遍历 value 的 迭代 器 类 型 变 为 java. lang. Iterable. 使 得 用 户 可 
以 采用 “foreach” 形 式 遍 历 所 有 value. 


本 章 内 容 分 为 两 部 分 。 

第 一 部 分 包括 MapReduce 的 默认 类 型 和 MapReduce 的 输入 输出 格式 。MapReduce 
的 默认 类 型 , 即 当 不 指定 调用 mapper 类 和 reducer 类 时 ,程序 将 调用 默认 的 mapper 类 和 
reducer 类 。MapReduce 的 输入 输出 格式 包括 : 

(1) 输入 分 片 与 记录 ; 

(2) 文本 输入 输出 ; 

(3) 二 进 制 输入 输 (出 ); 

(4) 多 输入 输出 。 

第 二 部 分 结合 新 旧 两 版 API 对 比 地 学 习 了 JavaAPI 解析 ,包括 : 

A) 作业 配置 与 提交 ， 

(2) OutputFormat,InputFormat 接口 的 设计 与 实现 ; 

(3) Mapper 与 Reducer 解析 。 


习 是 
1. 选择 题 
(1) 查看 新 版 MapReduce 的 Web 页 面 默认 的 端口 号 是 ( )。 
A. 50070 B. 18433 C. 18088 D. 50030 
(2) 在 map 和 reduce 函数 的 输入 和 输出 类 型 中 ,必须 一 致 的 是 ( do 
A. map 的 输入 和 输出 B. reduce 的 输入 和 输出 
C. map 的 输入 和 reduce 的 输出 D. map 的 输出 和 reduce 的 输入 


(3) 如 何 减少 输入 分 片 的 数量 ( 
AL 保持 分 片 大 小 不 变 ,减少 分 片 的 数量 B. 增 大 分 片 大 小 来 减少 分 片 的 数量 


C. 直接 减少 分 片 的 数量 D. 减 小 分 片 大 小 来 减少 分 片 的 数量 
2. 填空 题 
(1) 默认 的 InputFormat 是 。 每 条 记录 是 一 行 输入 , 键 是 类 型 ,存储 
该 行 在 整个 文件 中 的 字 节 偏 移 量 。 值 是 这 行 的 内 容 , 不 包括 任何 行 终止 符 , 它 被 打包 成 一 个 
对 象 。 
(2) 分 片 大 小 的 计算 公式 为 o Mi ti WF. minimumSize、blockSize、 


maximumSize 的 大 小 关系 为 


3. 问答 题 
(1) 以 下 是 一 条 执行 jar 包 的 Hadoop 命令 : 


hadoop jar /hame/zkpk/test.jar org.zkpk. Test /user/zkpk/input /user/zkpk/output 


请 解释 hadoop jar 后 的 每 个 字段 的 含义 。 

(2) 在 MapReduce 程序 中 ,不 指定 mapper 和 reducer, 并 且 不 设置 作业 环境 ,唯一 设置 
的 是 输入 路 径 和 输出 路 径 ,请 写 出 程序 运行 所 使 用 的 默认 设置 。 

(3) 简 述 Hadoop 不 适合 处 理 大 批量 小 文件 的 原因 。 


MapReduce 的 工作 机 制 与 YARN 平台 


本 章 提要 


MapReduce 是 一 种 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 计算 。Map( 映 射 ) 
和 Reduce( 化 简 ) 的 概念 和 它们 的 主要 思想 大 都 是 从 函数 式 编程 语言 和 矢量 编程 语言 借 来 
的 特性 。MapReduce 极 大 地 方便 了 编程 人 员 ,使 其 在 不 会 分 布 式 编程 的 情况 下 ,可 以 将 自 
己 的 程序 运行 在 分 布 式 系统 上 。 

当前 的 软件 实现 是 指定 一 个 map 函数 ,用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 , 指 
定 并 发 的 reduce 函数 ,用 来 保证 所 有 映射 的 每 一 个 键 值 对 共享 相同 的 键 组 。 

在 本 章 中 ,我 们 将 深入 学 习 Hadoop 中 的 MapReduce 作业 运行 机 制 shuffle 和 排序 、 任 
务 的 执行 以 及 作业 的 调度 。 这 些 知识 将 为 我 们 随后 两 章 学 习 编 写 MapReduce 高 级 编程 黄 
定 基础 。 

另外 ,本 章 还 介绍 了 Apache Hadoop YARN 资源 管理 器 ,与 之 前 的 版 本 相 比 ,YARN 
(Yet Another Redource Negotiator) 不 但 可 以 在 Hadoop 集群 上 运行 非 MapReduce 任务 ， 
还 具备 很 多 其 他 的 优势 ,包括 更 好 地 可 扩展 性 、 集 群 使 用 率 以 及 用 户 敏捷 性 。 第 2 版 
Hadoop 的 引入 已 经 改变 了 许多 MapReduce 应 用 在 集群 上 运行 的 方式 。 正 如 第 1 版 的 
Hadoop,Hadoop YARN 给 出 了 几乎 相同 的 MapReduce 例子 和 基准 测试 ,用 于 展示 
Hadoop YARN 是 怎样 运行 的 。 


9.1 YARN 平 台 简 介 


Apache Hadoop 是 最 流行 的 大 数据 处 理工 具 之 一 。 它 多 年 来 被 许多 公司 成 功 部 署 在 
生产 中 。 尽 管 Hadoop 被 视 为 可 靠 的 .可 扩展 的 .富有 成 本 效益 的 解决 方案 ,但 大 型 开发 人 
员 社区 仍 在 不 断 改进 它 。 最 终 ,2. 0 版 提供 了 多 项 革命 性 功能 ,其 中 包括 Yet Another 
Resource Negotiator( YARN), HDFS Federation 和 一 个 高 度 可 用 的 NameNode, 它 使 得 
Hadoop 集群 更 加 高 效 、 强 大 和 可 靠 。 本 节 将 对 YARN 进行 详细 的 介绍 ,了 解 YARN 所 带 
来 的 优势 。 


9.1.1 YARN 的 诞生 


Yahoo! 最 初 开发 Hadoop 是 为 了 用 于 搜索 和 索引 Web 网 页 ,目前 很 多 的 搜索 服务 都 
是 基于 这 个 框架 的 ,但 是 Hadoop 从 本 质 上 来 说 还 只 是 一 个 解决 方案 。2013 年 的 Hadoop 


峰会 上 ,YARN 是 一 个 热点 话题 。 三 年 的 酝酿 ,YARN 本 质 上 是 Hadoop 的 操作 系统 ,突破 
T MapReduce 框架 的 性 能 瓶颈 。 

MapReduce 是 在 HDFS 下 操纵 数据 的 主要 机 制 。 对 于 处 理 和 分 析 海 量 数据 (如 多 年 的 
日 志文 件 和 其 他 半 结 构 化 的 数据 ) ,这 是 一 个 很 好 的 选择 ,但 并 不 适合 其 它 类 型 的 数据 分 析 。 
三 年 前 , Hortonworks 的 创始 人 兼 架构 师 Arun Murthy 开始 着 手 重新 架构 Hadoop 
(Hortonworks 刚刚 宣布 在 新 一 轮 的 融资 中 获得 了 5 000 万 美元 , Tenaya Capital 和 
Dragoneer Investment Group 主导 了 本 轮 融 资 ,前 投资 人 Benchmark Capital, Index 
Ventures 和 Yahoo! 也 参与 其 中 ) ,以 使 其 成 为 一 个 更 通用 的 大 数据 平台 。 

Arun Murthy 提 到 :“ 着 手 构建 Hadoop2. 0 时 ,我 们 希望 从 根本 上 重新 设计 Hadoop 的 
架构 ,达到 可 以 在 Hadoop 上 运行 多 个 应 用 程序 并 处 理 相关 数据 集 的 目的 。 这 样 一 来 ,多 种 
类 型 的 应 用 程序 都 可 以 高 效 、 可 控 地 运行 在 同一 个 集群 上 。 这 是 以 Hadoop 2. 0 为 基础 的 
Apache YARN 之 所 以 能 够 诞生 的 真正 原因 。 通 过 YARN 管理 集群 的 资源 请 求 , Hadoop 
从 一 个 单一 应 用 程序 系统 升级 成 为 一 个 多 应 用 程序 的 操作 系统 。” 

Murthy 所 说 的 其 他 类 型 的 应 用 程序 包括 : 机 器 学 习 、 图 像 分 析 、 流 分 析 和 互动 查询 功 
能 等 。 一旦 YARN 全 面 投入 使 用 ,开发 者 将 能 通过 YARN"“ 操 作 系 统 ” 将 存储 在 HDFS 中 
的 数据 用 于 这 些 应 用 程序 。Hive 就 是 由 Facebook 开发 的 HDFS 上 层 的 SQL 类 型 的 数据 
仓库 工具 ,但 是 后 台 的 数据 处 理 还 要 通过 MapReduce。Hive 很 消耗 资源 ,会 影响 其 他 同时 
运行 的 作业 。 其 他 Hadoop 相关 的 数据 分 析 子 项 目 也 都 是 类 似 的 情况 。 

YARN 是 一 个 真正 的 Hadoop 资源 管理 器 ,允许 多 个 应 用 程序 同时 、 高 效 地 运行 在 一 
个 的 集群 上 。 有 了 YARN, Hadoop 将 是 一 个 真正 的 多 应 用 程序 平台 ,可 服务 于 整个 企业 。 
Murthy 表示 通过 YARN 可 以 以 一 种 前 所 未 有 的 方式 与 数据 交互 , YARN 已 经 被 用 于 
Hortonworks 的 数据 平台 ,Hadoop 和 YARN 的 组 合 是 企业 大 数据 平台 制胜 的 关键 。 


9.1.2 YARN 的 作用 


YARN 是 一 个 分 布 式 的 资源 管理 系统 ,用 以 提高 分 布 式 的 集群 环境 下 的 资源 利用 率 ， 
这 些 资源 包括 内 存 、1/O、 网 络 、 磁 盘 等 。 其 产生 的 原因 是 为 了 解决 原 MapReduce 框架 的 不 
足 。 最初 MapReduce 的 committer 们 还 可 以 周期 性 的 在 已 有 的 代码 上 进行 修改 ,可 是 随 着 
代码 的 增加 以 及 原 MapReduce 框架 设计 的 不 足 , 在 原 MapReduce 框架 上 进行 修改 变 得 越 
来 越 困 难 , 所 以 MapReduce 的 committer 们 决定 从 架构 上 重新 设计 MapReduce, 使 下 一 代 
的 MapReduce(MRv2/Yarn) 框 架 具有 更 好 的 扩展 性 、 可 用 性 、 可 靠 性 、 向 后 兼容 性 和 更 高 的 
资源 利用 率 ,以 及 能 支持 除了 MapReduce 计算 框架 外 的 更 多 的 计算 框架 。 


9.2 YARN 的 架构 


YARN 的 基本 思想 是 将 jobtracker 的 资源 管理 和 作业 的 调度 /监控 两 大 主要 职能 拆 分 
为 两 个 独立 的 进程 : 一 个 全 局 的 ResourceManager 和 与 每 个 应 用 对 应 的 ApplicationMaster 
(AM)。ResourceManager 和 每 个 节点 上 的 NodeManager(NM) 组 成 了 全 新 的 通用 操作 系 
统 ,以 分 布 式 的 方式 管理 应 用 程序 。 

ResourceManager 拥有 为 系统 中 所 有 应 用 的 资源 分 配 的 决定 权 。 对 应 于 应 用 程序 的 
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ApplicationMaster 是 框架 相关 的 , 负责 与 ResourceManager 协商 资源 ,以 及 与 
NodeManager 协同 工作 来 执行 和 监控 各 个 任务 。 

ResourceManager 有 一 个 可 插 拔 的 调度 器 组 件 Scheduler, 负 责 为 运行 中 的 各 种 应 
用 分 配 资源 ,分 配 时 会 受到 容量 .队列 及 其 他 因素 的 制约 。Scheduler 是 一 个 纯粹 的 调度 器 ， 
不 负责 应 用 程序 的 监控 和 状态 跟踪 ,也 不 保证 在 应 用 程序 失败 或 者 硬件 失败 的 情况 下 对 
Task 的 重启 。Scheduler 基于 应 用 程序 的 资源 的 需求 来 执行 其 调度 功能 ,使 用 了 称 为 资源 
Container 的 抽象 概念 ,其 中 包括 了 多 种 资源 维度 ,如 内 存 .CPU、 磁 盘 以 及 网 络 。 

NodeManager 是 与 每 台 机 器 对 应 的 从 属 进程 (slave) ,负责 启动 应 用 程序 的 Container. 
监控 它们 的 资源 使 用 情况 CCPU 内存 、 磁 盘 和 网 络 ) ,并 且 报 告 给 ResourceManager。 

每 个 应 用 程序 的 ApplicationMaster 负责 与 Scheduler 协商 合适 的 Container, 跟 踪 应 用 
程序 的 状态 ,以 及 监控 它们 的 进度 。 从 系统 的 角度 讲 , ApplicationMaster 也 是 一 个 普通 
Container 的 身份 运行 。 图 9-1 给 出 了 YARN 的 架构 图 。 
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图 9-1 YARN 的 架构 图 


在 新 的 YARN 系统 下 ,MapReduce 的 一 个 关键 实现 细节 是 ,在 不 做 大 的 修改 下 重用 现 
有 的 MapReduce 框架 。 这 是 确保 与 现 有 MapReduce 应 用 和 用 户 兼 容 性 的 重要 步骤 。 


9.2.1 ResourceManager 


YARN ResourceManager 是 一 个 纯粹 的 调度 器 , 它 负 责 整个 系统 的 资源 管理 和 分 配 。 
它 主要 由 两 个 组 件 构 成 : 调度 器 (Scheduler) 和 应 用 程序 管理 器 (Applications Manager， 
ASM). 

1. 调度 器 

调度 器 根据 容量 .队列 等 限制 条 件 ( 如 每 个 队列 分 配 一 定 的 资源 ,最 多 执行 一 定数 量 的 
作业 等 ) ,将 系统 中 的 资源 分 配给 各 个 正在 运行 的 应 用 程序 。 需 要 注意 的 是 ,该 调度 器 是 一 


个 “ 纯 调 度 器 ”, 它 不 再 从 事 任 何 与 具体 应 序 相关 的 工作 ,例如 不 负责 监控 或 者 跟踪 应 用 
的 执行 状态 等 ， ttn eet he ene gg 这 些 均 
交 由 应 用 程序 相关 的 ApplicationMaster 完成 。 调 度 器 仅 根 据 各 个 应 用 程序 的 资源 需求 进 
行 资源 分 配 ,而 资源 分 配 单 位 用 一 个 抽象 概念 “资源 容器 ”(Resource Container, 简称 
Container) 表 示 ,Container 是 一 个 动态 资源 分 配 单 位 , 它 将 内 存 、.CPU 磁盘 、 网 络 等 资源 封 
装 在 一 起 ,从 而 限定 每 个 任务 使 用 的 资源 量 。 此 外 ,该 调度 器 是 一 个 可 插 拔 的 组 件 , 用 户 可 
根据 自己 的 需要 设计 新 的 调度 器 ,YARN 提供 了 多 种 直接 可 用 的 调度 器 ,比如 公平 调度 器 
(Fair Scheduler) 和 容量 调度 器 (Capacity Scheduler) 。 

2. 应 用 程序 管理 器 

应 用 程序 管理 器 负责 管理 整个 系统 中 所 有 应 用 程序 ,包括 应 用 程序 提交 与 调度 器 协商 
资源 以 启动 ApplicationMaster、 监控 ApplicationMaster 运行 状态 并 在 失败 时 重新 启动 
它 等 。 


9.2.2 ApplicationMaster 


YARN 有 一 个 重要 的 新 概念 是 ApplicationMaster。ApplicationMaster 实际 上 是 特定 
框架 库 的 一 个 实例 ,负责 与 ResourceManager 协商 资源 ,并 和 ResourceManager 协同 工作 
来 执行 和 监控 Container 以 及 它们 的 资源 消耗 。 它 有 责任 与 ResourceManager 协商 并 获取 
合适 的 资源 Container, 跟 踪 它 们 的 状态 ,以 及 监控 其 进展 。 

ApplicationMaster 和 应 用 是 相互 对 应 的 。 它 主要 有 以 下 职责 

(1) 与 调度 器 协商 资源 ; 

(2) 与 NodeManager 合作 ,在 合适 的 Container 中 运行 对 应 的 组 件 task, 并 监控 这 
task 执行 ， 

(3) 如 果 Container 出 现 故 障 ,ApplicationMaster 会 重新 向 调度 器 申请 其 他 资源 ; 

(4) 计算 应 用 程序 所 需 的 资源 量 , 并 转化 成 调度 器 可 识别 的 协议 信息 包 ; 

(5) 在 ApplicationMaster 出 现 故障 后 ,应 用 管理 器 会 负责 重启 它 , 但 由 ApplicationMaster 
自己 从 之 前 保存 的 应 用 程序 执行 状态 中 恢复 应 用 程序 。 

在 真实 环境 下 ,每 一 个 应 用 都 有 自己 的 ApplicationMaster 实例 。 然 而 ,为 一 组 应 用 提 
供 一 个 ApplicationMaster 是 完全 可 行 的 ,如 Pig 或 者 Hive 的 ApplicationMaster。 另 外 ,这 
个 概念 已 经 延伸 到 了 管理 长 时 间 运 行 的 服务 ,他 们 可 以 管理 自己 的 应 用 。 例 如 ,通过 一 个 特 
殊 的 HBaseAppMaster 在 YARN 中 启动 HBase。 


9.2.3 NodeManager 


NodeManager 是 每 个 节点 的 框架 代理 。 它 负责 启动 应 用 的 Container, 监控 Container 
的 资源 使 用 (包括 CPU 内存、 硬盘 和 网 络 带宽 等 ) ,并 把 这 些 用 信息 汇报 给 调度 器 。 应 用 对 
应 的 ApplicationMaster 负责 通过 协商 从 调度 器 处 获取 资源 容器 (Resource Container, 简称 
Container) ,并 跟踪 这 些 Container 的 状态 和 应 用 执行 的 情况 。 

告 点 上 都 有 一 个 NodeManager, 它 主要 负责 

(1) 为 应 用 启用 调度 器 ,以 分 配给 应 用 的 Container; 

(2) shen Container 不 会 使 用 超过 分 配 的 资源 量 ; 
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(3) W task 构建 Container 环境 ,包括 二 进 制 可 执行 文件 . jars 等 ; 

(4) 为 所 在 的 节点 提供 一 个 管理 本 地 存储 资源 的 简单 服务 。 

应 用 程序 可 以 继续 使 用 本 地 存储 资源 ,即使 它 没有 从 ResourceManager 处 申请 。 例 
如 ,MapReduce 可 以 利用 这 个 服务 存储 Map Task 的 中 间 输 出 结果 ,并 将 其 shuffle 给 
Reduce Task, 


9.2.4 资源 模型 
YARN 提供 了 非常 通用 的 应 用 资源 模型 。 一 个 应 用 (通过 ApplicationMaster) 可 以 请 


求 非常 具体 的 资源 ,如 下 所 示 : 
(1) 资源 名 称 (包括 主机 名 称 、 机 架 名 称 ,以 及 可 能 的 复杂 的 网 络 拓扑 ); 
(2) 内 存量 ; 


(3) CPU( 核 数 / 类 型 ); 
(4) 其 他 资源 ,如 disk/network IO .GPU 等 资源 。 


9.2.5 ResourceRequest 和 Container 


YARN 被 设计 成 可 以 允许 应 用 程序 (通过 ApplicationMaster) 以 共享 的 、 安 全 的 以 及 多 
用 租户 的 方式 使 用 集群 的 资源 。 它 也 会 感知 集群 的 网 络 拓扑 ,以 便 可 以 有 效 地 调度 以 及 优 
化 数据 访问 ( 即 尽 可 能 地 为 应 用 减少 数据 移动 ) 。 

为 了 达成 这 些 目标 ,位 于 ResourceManager 内 的 中 心 调度 器 保存 了 应 用 程序 的 资源 请 求 
的 信息 ,以 帮助 它 为 集群 中 的 所 有 应 用 作出 更 优 的 调度 决策 。 由 此 引出 了 ResourceRequest 
以 及 由 此 产生 的 Container 概念 。 

本 质 上 ,一 个 应 用 程序 可 以 通过 ApplicationMaster 请 求 特 定 的 资源 需求 来 满足 它 的 资 
源 需 要 。 调 度 器 会 分 配 一 个 Container 来 响应 资源 需求 ,用 于 满足 由 ApplicationMaster 在 
ResourceRequest 中 提出 的 需求 。 

ResourceRequest 具有 以 下 形式 : 


< 资源 名 称 ,优先 级 ,资源 需求 ,Container $> 


这 些 组 成 描述 如 下 。 

(1) 资源 名 称 。 资 源 名 称 是 资源 期 望 所 在 的 主机 名 、 机 架 名 ,用 * 表示 没有 特殊 要 求 。 
未 来 可 能 支持 更 加 复杂 的 拓扑 ,例如 一 个 主机 上 的 多 个 虚拟 机 ,更 复杂 的 网 络 拓扑 等 。 

(2) 优先 级 。 优 先 级 是 应 用 程序 内 部 请 求 的 优先 级 (而 不 是 多 个 应 用 程序 之 间 )。 优 先 
级 会 调整 应 用 程序 内 部 各 个 ResourceRequest 的 次 序 。 

(3) 资源 需求 。 资 源 需 求 是 需要 的 资源 量 、 如 内 存量 ,CPU 时 间 ( 目 前 YARN 仅 支持 
内 存 和 CPU 两 种 资源 维度 ) 。 

(4) Container 数 。Container 数 表 示 需 要 这 样 的 Container 的 数量 , 它 限 制 了 用 该 
ResourceRequest 指定 的 Container 总 数 。 

本 质 上 ,Container 是 一 种 资源 分 配 形式 ,是 ResourceManager 为 ResourceRequest 成 
功 分 配 资源 的 结果 。Container 为 应 用 程序 授予 在 特定 主机 上 使 用 资源 (如 内 存 ,CPU 等 ) 
的 权利 。 


ApplicationMaster 必须 取 走 Container, 并 交 给 NodeManager, NodeManager 会 利用 相 
应 的 资源 来 启动 Container 的 任务 进程 。 出 于 安全 考虑 ,Container 的 分 配 要 以 一 种 安全 的 
方式 进行 验证 ,来 保证 ApplicationMaster 不 能 伪造 集群 中 的 应 用 。 


9.2.6 Container 规范 


如 前 所 述 , Container 只 是 使 用 服务 器 (NodeManager) 上 指定 资源 的 权利 ， 
ApplicationMaster 必须 向 NodeManager 提供 更 多 信息 来 启动 Container。 与 现 有 的 
MapReduce 不 同 ,YARN 允许 应 用 程序 启动 任何 程序 ,而 不 仅 限于 Java 应 用 程序 。 

YARN Container 的 启动 API 是 与 平台 无 关 的 ,包括 下 列 元 素 : 

(1) JA) Container 内 进程 的 命令 行 ; 

(2) 环境 变量 ; 

(3) 启动 Container 之 前 所 需 的 本 地 资源 ,如 JAR 共享 对 象 ,以 及 辅助 的 数据 文件 ; 

(4) 安全 相关 的 令 牌 。 

这 种 设计 允许 ApplicationMaster 与 NodeManager 协同 工作 来 启动 Container 应 用 程 
序 , 范 围 从 简单 的 Shell 脚本 到 C/Java/Python 程序 ,可 能 运行 在 UNIX/Windows 上 ,也 可 
能 运行 在 虚拟 机 上 。 


93 ”剖析 MapReduce 作业 运行 机 制 


Hadoop 中 的 MapReduce 是 一 个 使 用 简单 的 软件 框架 ,基于 它 写 出 来 的 应 用 程序 能 够 
运行 在 由 上 千 个 商用 机 器 组 成 的 大 型 集群 上 ,并 以 一 种 可 靠 容 错 式 并 行 处 理 TB 级 别 的 数 
据 集 。 

一 个 MapReduce 作业 (Job) 会 把 输入 的 数据 集 切 分 为 若干 独立 的 数据 块 , 由 Map 任务 
以 完全 并 行 的 方式 处 理 它们 。 框 架 会 对 Map 函数 的 输出 先进 行 排序 ,然后 把 结果 输入 给 
Reduce 任务 。 通 常 作业 的 输入 和 输出 都 会 被 存储 在 文件 系统 中 。 整 个 框架 负责 任务 的 调 
度 和 监控 ,以 及 重新 执行 已 经 失败 的 任务 。 

一 般 情况 下 ,MapReduce 框架 和 分 布 式 文件 系统 是 运行 在 一 组 相同 的 节点 上 的 ,也 就 
是 说 ,计算 节点 和 存储 节点 通常 在 一 起 。 这 种 配置 允许 框架 在 那些 已 经 存 好 数据 的 节点 上 
高 效 地 调度 任务 ,这 可 以 使 整个 集群 的 网 络 带宽 被 非常 高 效 地 使 用 。 

我 们 可 以 通过 一 个 简单 的 方法 调用 来 运行 MapReduce 作业 :Job 对 象 上 的 submit()。 注 
意 ,也 可 以 调用 waitForCompletion() , 它 用 于 提交 以 前 没有 提交 过 的 作业 ,并 等 待 它 的 完成 。 
submit() 方 法 调用 封装 了 大 量 的 处 理 细节 。 本 节 将 揭示 Hadoop 运行 作业 时 所 采取 的 措施 。 

在 目前 的 版 本 以 及 0. 20 版 本 系列 中 ,mapred. job. tracker 决定 了 执行 MapReduce 程 
序 的 方式 。 如 果 这 个 配置 属性 被 设置 为 local( 默 认 值 ), 则 使 用 本 地 的 作业 运行 器 。 运 行 器 
在 单个 JVM 上 运行 整个 作业 。 它 被 设计 用 来 在 小 的 数据 集 上 测试 和 运行 MapReduce 
程序 。 

如 果 mapred. job. tracker 被 设置 为 用 冒号 分 开 的 主机 和 端口 对 (主机 : 端口 ), 那 么 该 
配置 属性 就 被 解释 为 一 个 jobtracker 地 址 ,运行 器 则 将 作业 提交 给 该 地 址 的 jobtracker。 

Hadoop 2. 0 引入 了 一 种 新 的 执行 机 制 。 这 种 新 机 制 ( 称 为 MapReduce 2) 建 立 在 


第 9 章 
| MapReduce 的 工作 机 制 与 YARN 平 全 o? 


YARN 系统 上 。 
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目前 ,用 于 执行 的 框架 通过 mapreduce. framework. name 属性 进行 设置 , 值 local 表示 
本 地 的 作业 运行 器 ,classic 表示 经 典 的 MapReduce 框架 (也 称 MapReduce 1, 它 使 用 一 个 
jobtracker 和 多 个 tasktracker) ,YARN 表示 新 的 框架 。 

对 于 节点 数 超出 4 000 的 大 型 集群 , MapReduce 系统 开始 面临 着 扩展 性 的 瓶颈 。2010 年 ， 
雅虎 的 一 个 团队 开始 设计 下 一 代 的 MapReduce, Hik, YARN (Yet Another Resource 
Negotiator 的 缩写 或 者 为 YARN Application Resource Nefotiator 的 缩写 ) 应 运 而 生 。 

经 典 的 MapReduce(MapReduce 1) 的 最 顶层 包含 4 个 独立 的 实体 ,分 别 是 客户 端 、 
jobtracker tasktracker 以 及 分 布 式 文件 系统 。YARN 将 Jobtracker 的 职能 划分 为 多 个 独 
立 的 实体 ,从 而 改善 了 “经 典 的 ”MapReduce 面临 的 扩展 瓶颈 问题 。Jobtracker 负责 作业 调 
度 和 任务 进度 监视 .追踪 任务 .重启 失败 或 过 慢 的 任务 和 进行 任务 登记 ,例如 维护 计数 器 

YARN 将 这 两 种 角色 划分 为 两 个 独立 的 守护 进程 : 管理 集群 上 资源 使 用 的 资源 管理 
器 和 管理 集群 上 运行 任务 生命 周期 的 应 用 管理 器 。 基 本 思路 是 : 应 用 服务 器 与 资源 管理 器 
协商 集群 的 计算 资源 一 一 容器 (每 个 容器 都 有 特定 的 内 存 上 限 ) ,在 这 些 容 器 上 运行 特定 应 
用 程序 的 进程 。 容 器 由 集群 节点 上 运行 的 节点 管理 器 监视 ,以 确保 应 用 程序 使 用 的 资源 不 
会 超过 分 配给 它 的 资源 。 

与 jobtraker 不 同 ,应 用 的 每 个 实例 (这 里 指 一 个 MapReduce 作业 ) 都 有 一 个 专用 的 应 
用 master, 它 运行 在 应 用 的 运行 期 间 。 这 种 方式 实际 上 和 最 初 Google 的 MapReduce 论文 
里 介绍 的 方法 很 相似 ,该 论文 描述 了 master 进程 如 何 协调 在 一 组 worker 上 运行 的 map 任 
务 和 reduce 任务 。 

如 上 所 述 ,YARN 比 MapReduce 更 具 一 般 性 ,实际 上 MapReduce 只 是 YARN 应 用 的 
一 种 形式 。 有 很 多 其 他 的 YARN 应 用 (例如 能 够 在 集群 中 的 一 组 节点 上 运行 脚本 的 分 布 式 
shell) 以 及 其 他 正在 开发 的 程序 。YARN 设计 的 精妙 之 处 在 于 不 同 的 YARN 应 用 可 以 在 
同一 个 集群 上 共存 。 例 如 ,一 个 MapReduce 应 用 可 以 同时 作为 API 应 用 运行 。 这 大 大 提 
高 了 可 管理 性 和 集群 的 利用 率 。 

此 外 ,用 户 甚至 有 可 能 在 同一 个 YARN 集群 上 运行 多 个 不 同 版 本 的 MapReduce, 这 使 
得 MapReduce 升级 过 程 更 容易 管理 。 注 意 ,MapReduce 的 某 些 部 分 (如 作业 历史 服务 器 和 
shuffle 处 理 器 ) 以 及 YARN 本 身 仍然 需要 在 整个 集群 上 升级 。 

YARN 上 的 MapReduce 比 经 典 的 MapReduce 包括 更 多 的 实体 ,具体 如 下 。 

(1) 客户 端 : 提交 MapReduce 作业 。 

(2) YARN 资源 管理 器 (ResourceManager) : 负责 协调 集群 上 计算 资源 的 分 配 。 

G) YARN 节点 管理 器 (NodeManager): 负责 启动 和 监视 集群 中 机 器 上 的 计算 容器 
(Container) 。 

(4) MapReduce 应 用 程序 master: 负责 协调 运行 MapReduce 作业 的 任务 。 它 和 
MapReduce 任务 在 容器 中 运行 ,这 些 容 器 由 资源 管理 器 分 配 并 由 节点 管理 器 进行 管理 。 


(5) 分 布 式 文件 系统 CHDFS) : 用 来 与 其 他 实体 间 共 享 作 业 文 件 。 


作业 的 运行 过 程 如 图 9-2 所 示 。 
1. run job 
Se ResourceManager 
clientnode = / į resource managér node 


client JVM i 


5a.start container / 


f NodeManager j i 
3. copy job resources / F 
i 7 


Sb.launch | 


G.initialize job : 
a MRAppMaster mg 


allocate resources 


一 node manager node 


i we” 7. retrieve 
‘4 Pi input splits 
Shared FileSystem « 
(e.g., HDFS) 


node manager node 


图 9-2 Hadoop 使 用 YARN 运行 MapReduce 的 过 程 


1. 作业 的 提交 

作业 提交 的 步骤 如 下 。 

(1) Job 的 submit ( ) 方 法 创建 一 个 内 部 的 JobSummiter 实例 ,并 且 调 用 其 
submitJobInternal() 方 法 (图 9-2 中 步骤 1). 

(2) MapReduce 2 实现 了 ClientProtocol. 当 mapreduce. framework. name 设置 为 yarn 
时 启动 。 从 ResourceManager 获取 新 的 作业 ID ,在 YARN 命名 法 中 它 是 一 个 应 用 程序 ID 
(图 9-2 中 步骤 2) 。 

(3) 作业 客户 端 检查 作业 的 输出 说 明 , 计 算 输入 分 片 (虽然 有 选项 yarn. app. 
mapreduce. am. compute-splits-in-cluster 在 集群 上 来 产生 分 片 ,这 可 以 使 具有 多 个 分 片 的 
作业 从 中 受益 ) 并 将 作业 资源 (包括 作业 JAR、 配 置 和 分 片 信 息 ) 复 制 到 HDFS( 图 9-2 中 步 
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HR 3) 
(4) 最 后 ,通过 调用 资源 管理 器 上 的 submitApplication() 方 法 提交 作业 (图 9-2 中 步骤 4). 
2. 作业 初始 化 


当 资 源 管理 器 收 到 submitApplication() 的 请 求 后 , 便 将 请 求 发 给 调度 器 (Scheduler)， 
调度 器 分 配 一 个 容器 (Container) ,然后 ResourceManager 在 NodeManager 的 管理 下 在 
Container 内 启动 应 用 程序 的 master 进程 (图 9-2 中 步骤 5a 和 Sb). 

MapReduce 作业 的 应 用 管理 器 (application master) 是 一 个 主 类 为 MRAppMaster 的 
Java 应 用 。 它 对 作业 进行 初始 化 : 通过 创建 多 个 德 记 对 象 以 保持 对 作业 进度 的 跟踪 ,因为 
它 将 接受 来 自任 务 的 进度 和 完成 报告 (图 9-2 中 步骤 6)。 然 后 ,其 通过 分 布 式 文件 系统 
(HDFS) 得 到 在 客户 端 计算 好 的 输入 分 片 (图 9-1 中 步骤 7)。 然 后 为 每 个 输入 分 片 创建 一 
个 map 任务 ,根据 mapreduce. job. reduces 属性 创建 多 个 reduce {EF WR. 

然后 ,application master 决定 如 何 运行 构成 MapReduce 作业 的 各 个 任务 。 如 果 作 业 很 
小 ,application master 会 选择 在 其 自己 的 JVM 中 运行 任务 。 相 对 于 在 一 个 节点 上 顺序 运 
行 它们 ,判断 在 新 的 Container 中 分 配 和 运行 任务 的 开销 大 于 运行 它们 的 开销 时 ,就 会 发 生 
这 一 情况 。 这 样 的 作业 称 为 uberized ,或 者 作为 uber 任务 运行 。 

哪些 任务 是 小 任务 ? 默认 情况 下 ,小 任务 就 是 小 于 10 个 mapper、 只 有 1 个 reduce 且 输 
入 大 小 小 于 一 个 HDFS 块 的 任务 (改变 一 个 作业 的 上 述 值 可 以 通过 设置 mapreduce. job. 
ubertask. maxmaps, mapreduce. job. ubertask. maxreduces 和 mapreduce. job. ubertask. 
maxbytes)。 将 mapreduce. job. ubertask. enable 设置 为 {alse 也 可 以 完全 使 uber 任务 不 
可 用 。 

在 任何 任务 运行 之 前 ,作业 的 setup 方法 为 了 设置 作业 的 OutputCommitter 而 被 调用 
来 建立 作业 的 输出 目录 。 在 YARN 执行 框架 中 ,该 方法 由 应 用 程序 master 直接 调用 。 

3. 任务 的 分 配 

如 果 作 业 不 适合 作为 uber 任务 运行 ,那么 application master 就 会 为 该 作业 中 的 所 有 
map 任务 和 reduce 任务 向 ResourceManager 请 求 Container( 图 9-2 中 步骤 8)。 附 着 心跳 
信息 的 请 求 包括 每 个 map 任务 的 数据 本 地 化 信息 ,特别 是 输入 分 片 所 在 的 主机 和 相应 机 架 
信息 。 调 度 器 使 用 这 些 信息 来 做 调度 决策 。 理 想 情况 下 , 它 将 任务 分 配 到 数据 本 地 化 的 节 
点 ,但 如 果 不 可 能 这 样 做 ,调度 器 就 会 相对 于 非 本 地 化 的 分 配 优先 使 用 机 架 本 地 化 的 分 配 。 

请 求 也 为 任务 指定 了 内 存 需 求 ,在 默认 情况 下 ,map 和 reduce 任务 的 内 存 需求 都 是 
1024MB, 可 以 通过 mapreduce. map. memory. mb 和 mapreduce. reduce. memory. mb 来 设置 。 

分 配 内 存 的 方式 和 MapReduce 1 中 不 一 样 ,MapReduce 1 中 每 个 tasktracker 有 固定 数 
量 的 槽 (slot) ,slot 是 在 集群 配置 是 设置 的 ,每 个 任务 运行 在 一 个 slot 中 ,每 个 slot 都 有 最 大 
内 存 限 制 , 这 对 集群 是 固定 的 ,导致 当 任务 使 用 较 少 内 存 时 无 法 充分 利用 内 存 ( 因 为 其 他 等 
待 的 任务 不 能 使 用 这 些 未 使 用 的 内 存 ) 以 及 由 于 任务 不 能 获取 足够 内 存 而 导致 作业 失败 。 

在 YARN 中 ,资源 划分 的 粒度 更 细 , 所 以 可 以 避免 上 述 问题 。 具 体 而 言 ,应 用 程序 可 以 
请 求 最 小 到 最 大 限制 范围 的 任意 最 小 值 倍数 的 内 存 容量 。 默 认 的 内 存 分 配 容量 是 调度 器 特 
定 的 ,对 于 容量 调度 器 , 它 的 默认 最 小 值 是 1 024MB, 默 认 的 最 大 值 是 1 0240MB。 因 此 , 任 
务 可 以 通过 适当 设置 mapreduce. map. memory. mb 和 mapreduce. reduce. memory. mb 来 
请 求 1GB 到 10GB 间 的 任意 1GB 倍数 的 内 存 容 量 ( 调 度 器 在 需要 的 时 候 使 用 最 接近 的 


4. 任务 的 执行 

— H ResourceManager 的 调度 器 为 任务 分 配 了 Container,application master 就 通过 与 
NodeManager 通信 来 启动 Container (图 9-2 中 步骤 9a 和 步骤 9b)。 该 任务 由 主 类 为 
YarnChild 的 Java 应 用 程序 执行 。 在 它 运行 任务 之 前 ,首先 将 任务 需要 的 资源 本 地 化 ,包括 
作业 的 配置 JAR 文件 和 所 有 来 自分 布 式 缓存 的 文件 (图 9-2 中 步骤 10)。 最 后 ,运行 map 
任务 或 reduce 任务 (图 9-2 中 步骤 11) 。 

至 于 Streaming 和 Pipes ,它们 都 运行 特殊 的 map 任务 和 reduce 任务 ,目的 是 运行 用 户 
提供 的 可 执行 程序 ,并 与 之 通信 。YarnChild 启动 Streaming 或 Pipes 进程 ,并 通过 分 别 使 
用 标准 的 输入 /输出 或 套 接 字 与 它们 通信 ,如 图 9-2 所 示 (child 和 子 进程 在 NodeManager 上 
运行 ,而 非 tasktracker) 。 

5. 进度 和 状态 更 新 

在 YARN 下 运行 时 ,任务 3s 通过 umbilical 接口 向 application master 汇报 进度 和 状态 
(包含 计数 器 ) ,作为 作业 的 汇聚 视图 (aggregate view)。 这 个 过 程 如 图 9-3 所 示 。 
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图 9-3 在 MapReduce 2 系统 中 状态 更 新 信息 的 过 程 
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客户 端 每 秒 钟 (通过 mapreduce. client. progressmonitor. pollinterval 设置 ) 查 询 一 次 
application master 以 接收 进度 更 新 ,通常 都 会 向 用 户 显示 。 

在 MapReduce 1 中 ,作业 跟踪 器 的 Web UI 展示 运行 作业 列表 及 其 进度 。 在 YARN 
中 ,资源 管理 器 的 Web UI 展 示 了 正在 运行 的 应 用 以 及 连接 到 的 对 应 application master, 每 
个 application master 展示 MapReduce 作业 进度 等 进一步 的 细节 。 

6. 作业 完成 

除了 向 application master 查询 进度 外 ,客户 端 每 5s 还 通过 调用 Job 的 waitForCompletion() 
来 检查 作业 是 否 完 成 。 可 以 通过 设置 mapreduce. client. completion. pollinterval 属性 来 查 
询 时 间 间 隔 。 

作业 完成 后 ,application master 和 任务 容器 清理 其 工作 状态 ,OutputCommitter 的 作业 
清理 方法 会 被 调用 。 作 业 历 史 服务 器 保存 作业 的 信息 供用 户 需 要 时 查询 。 


9.5 Shuffle 和 排序 


MapReduce 可 以 确保 每 个 reducer 的 输入 都 按键 排序 。 系 统 执行 排序 的 过 程 ( 即 将 
map 输出 作为 输入 传 给 reducer) 称 为 shuffle。 在 此 ,我 们 将 学 习 shuffle 是 如 何 工作 的 , 因 
为 它 有 助 于 我 们 理解 工作 机 制 ( 如 果 需 要 优化 MapReduce 程序 )。 从 多 方面 来 看 ,shuffle 
是 MapReduce 的 "心脏 ", 是 奇迹 发 生 的 地 方 。 


9.5.1 map 端 


map 函数 开始 产生 输出 时 ,并 不 是 简单 地 将 它 写 到 磁盘 。 这 个 过 程 更 复杂 , 它 利 用 组 
冲 的 方式 写 到 内 存 , 并 出 于 效率 的 考虑 进行 预 排序 。 图 9-4 展示 了 这 个 过 程 。 
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图 9-4 MapReduce 的 shuffle 和 排序 


每 个 map 任务 都 有 一 个 环形 内 存 缓冲 区 用 于 存储 任务 的 输出 。 默 认 情 况 下 ,缓冲 区 的 
大 小 为 100 MB, 此 值 可 以 通过 改变 io. sort. mb 属性 来 调整 。 一 旦 缓冲 内 容 达到 阔 值 
Cio. sort. spill. percent ,默认 为 0. 80 或 80%) ,一 个 后 台 线 程 便 开 始 把 内 容 洪 出 到 (spill) 磁 
盘 中 。 在 写 磁 盘 过 程 中 ,map 输出 继续 被 写 到 缓冲 区 ,但 如 果 在 此 期 间 缓冲 区 被 填 满 ,map 


会 被 阻塞 ,直到 写 磁 盘 过 程 完成 。 写 磁盘 过 程 按 轮 询 方式 将 缓冲 区 中 的 内 容 写 到 mapred. 
local. dir 属性 指定 的 作业 特定 子 目 录 中 的 目录 中 。 

在 写 磁 盘 之 前 ,线程 首先 根据 数据 最 终 要 传送 到 的 reducer 把 数据 划分 成 相应 的 分 区 
(partition)。 在 每 个 分 区 中 ,后 台 线 程 按键 进行 内 排序 ,如 果 有 一 个 combiner, 它 会 在 排序 
后 的 输出 上 运行 。 运 行 combiner 使 得 map 输出 结果 更 紧凑 ,因此 减少 写 到 磁盘 的 数据 和 
传递 给 reducer 的 数据 。 

一 旦 内 存 缓冲 区 达到 溢出 写 的 阔 值 ,就 会 新 建 一 个 溢出 文件 Cspill file) ,因此 在 map 任 

写 完 其 最 后 一 个 输出 记录 之 后 ,会 有 几 个 溢出 文件 。 在 任务 完成 之 前 ,溢出 文件 被 合并 成 
一 个 已 分 区 且 已 排序 的 输出 文件 。 配 置 属性 io. sort. factor 控制 着 一 次 最 多 能 合并 多 少 流 ， 
默认 值 是 10。 

如 果 至 少 存在 3 个 溢出 文件 (通过 min. num. spills. for. combine 属性 设置 ) 时 , 则 
combiner 就 会 在 输出 文件 写 到 磁盘 之 前 运行 。 前 面 曾 讲 过 ,combiner 可 以 在 输入 上 反复 运 
行 , 但 并 不 影响 最 终结 果 。 如 果 只 有 一 个 或 者 两 个 溢出 文件 ,那么 对 map 输出 的 减少 方面 
不 值得 调用 combiner, 不 会 为 该 map 输出 再 次 运行 combiner。 

写 磁 盘 时 ,压缩 map 输出 往往 是 个 很 好 的 主意 ,因为 这 样 会 让 写 磁盘 的 速度 更 快 ,节约 
磁盘 空间 ,并 且 减 少 传 给 reducer 的 数据 量 。 默 认 情 况 下 ,输出 是 不 压缩 的 ,但 只 要 将 
mapred. compress. map. output 设置 为 true, 就 可 以 轻松 启用 此 功能 。 使 用 的 压缩 库 由 
mapred. map. output. compression. codec 指定 。 

reducer 通过 HTTP 方式 得 到 输出 文件 的 分 区 。 用 于 文件 分 区 的 工作 线程 的 数量 由 任 
务 的 tracker. http. threads 属性 控制 ,此 设置 针对 每 个 tasktracker, 而 不 是 针对 每 个 map 任 
务 槽 。 默 认 值 是 40。 在 运行 大 型 作业 的 大 型 集群 上 ,此 值 可 以 根据 需要 而 增加 。 在 
MapReduce 2 中 ,该 属性 是 不 适用 的 ,因为 使 用 的 最 大 线程 数 是 基于 机 器 的 处 理 器 数量 自动 
设 定 的 。MapReduce 2 使 用 Netty, 默 认 情况 下 人 允许 值 为 处 理 器 数量 的 两 倍 。 


9.5.2 reduce dit 


现在 转 到 处 理 过 程 的 reduce 部 分 。map 输出 文件 位 于 运行 map 任务 的 tasktracker 的 
本 地 磁盘 。 注 意 , 尽 管 map 输出 经 常 写 到 map tasktracker 的 本 地 磁盘 ,但 reduce 输出 并 不 
这 样 。tasktracker 需要 为 分 区 文件 运行 reduce 任务 。 更 进一步 ,reduce 任务 需要 集群 上 若 
干 个 map 任务 的 map 输出 作为 其 特殊 的 分 区 文件 。 每 个 map 任务 的 完成 时 间 可 能 不 同 ， 
因此 只 要 有 一 个 任务 完成 ,reduce 任务 就 开始 复制 其 输出 。 这 就 是 reduce 任务 的 复制 阶段 
(copy phase) 。reduce 任务 有 少量 复制 线程 ,因此 能 够 并 行 取 得 map 输出 。 默 认 值 是 5 个 
线程 ,可 以 通过 设置 mapred. reduce. parallel. copies 属性 来 改变 。 


Ay RRR 
reducer 如 何 知道 要 从 哪个 tasktracker 取得 map 输出 ? 


map 任务 成 功 完成 后 ,它们 会 通知 其 父 tasktracker 状态 已 更 新 ,然后 tasktracker 
进而 通知 jobtracker, 而 在 MapReduce 2 中 , 任务 直接 通知 其 应 用 程序 master。 这 些 通 
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知 在 前 面 介绍 的 心跳 通信 机 制 中 传输 。 因 此 ,对 于 指定 作业 ,jobtracker( 或 应 用 程序 
master) 知 道 map 输出 和 tasktracker 之 间 的 映射 关系 。reducer 中 的 一 个 线程 定期 询问 
jobtracker, 以 便 获 取 map 输出 的 位 置 , 直 到 获得 所 有 输出 位 置 。 

由 于 第 一 个 reducer 可 能 失败 ,因此 tasktracker 并 没有 在 第 一 个 reducer 检索 到 
map 输出 时 就 立即 从 磁盘 上 删除 它们 。 相 反 ,tasktracker 会 等 待 , 直 到 jobtracker 告知 
它 可 以 删除 map 输出 ,这 是 作业 完成 后 执行 的 。 


如 果 map 输出 相当 小 , 则 会 被 复制 到 reduce 任务 的 内 存 ( 缓 冲 区 大 小 由 mapred. job. 
shuffle. input. buffer. percent 属性 控制 ,指定 用 于 此 用 途 的 堆 空间 的 百分比 ); 和 否则 ,map 输 
出 被 复制 到 磁盘 。 一 旦 内 存 缓 冲 区 达到 阔 值 大 小 (由 mapred. job. shuffle. merge. percent 
决定 ) 或 达到 map fii ih BYE (HH mapred. inmem. merge. threshold 控制 ) , 则 合并 后 溢出 写 到 
磁盘 中 。 若 指定 combiner, 则 在 合并 期 间 运 行 它 ,以 降低 写 和 人 磁盘 的 数据 量 。 

随 着 磁盘 上 副本 的 增多 ,后 台 线 程 会 将 它们 合并 为 更 大 的 、 排 好 序 的 文件 。 这 会 为 后 面 
的 合并 节省 一 些 时 间 。 注 意 ,为 了 合并 ,压缩 的 map 输出 (通过 map 任务 ) 都 必须 在 内 存 中 
被 解压 缩 。 

复制 完 所 有 map 输出 后 ,reduce 任务 进入 排序 阶段 (sort phase) ,更 恰当 的 说 法 是 合并 
阶段 ,因为 排序 是 在 map 端 进行 的 ,这 个 阶段 将 合并 map 输出 ,维持 其 顺序 排序 。 这 是 循环 
进行 的 。 例 如 ,如 果 有 50 个 map 输出 ,而 合并 因子 (merge factor) 是 10(10 为 默认 设置 ,由 
io. sort. factor 属性 设置 ,与 map 的 合并 类 似 ) ,合并 将 进行 5 次 。 每 次 将 10 个 文件 合并 成 
一 个 文件 ,因此 最 后 有 5 个 中 间 文 件 。 

在 最 后 阶段 , 即 reduce 阶段 ,直接 把 数据 输入 reduce 函数 ,从 而 省 略 了 一 次 磁盘 往返 行 
程 ,并 没有 将 这 5 个 文件 合并 成 一 个 已 排序 的 文件 作为 最 后 一 次 。 最 后 的 合并 可 以 来 自 内 
存 和 磁盘 片段 。 

在 reduce 阶段 ,对 已 排序 输出 中 的 每 个 键 都 要 调用 reduce 函数 。 此 阶段 的 输出 直接 写 
到 输出 文件 系统 ,一 般 为 HDFS。 如 果 采 用 HDFS, 由 于 tasktracker 节点 (或 
NodeManager) 也 运行 数据 节点 ,所 以 第 一 个 块 复 本 (block replica) 将 被 写 到 本 地 磁盘 。 


ST RR 
每 次 合并 的 文件 数 怎么 样 设计 才能 达到 优化 ? 


每 次 合并 的 文件 数 实际 上 比 示例 中 展示 的 更 微妙 。 目 标 是 合并 最 小 数量 的 文件 以 
便 满 足 最 后 一 次 的 合并 系数 。 因 此 如 果 有 40 个 文件 ,不 会 在 四 次 中 ,每 次 合并 10 个 文 
件 从 而 得 到 4 个 文件 。 相 反 , 第 一 次 只 合并 4 个 文件 ,随后 的 三 次 合并 所 有 10 个 文件 。 
在 最 后 一 次 中 ,4 个 已 合并 的 文件 和 余下 的 6 个 (未 合并 的 ) 文 件 合计 10 个 文件 。 该 过 
程 如 图 9-5 所 示 。 

注意 ,这 并 没有 改变 合并 的 次 数 (the number of rounds), 它 只 是 一 个 优化 措施 , 尽 
量 减 少 写 到 磁盘 的 数据 量 , 因 为 最 后 一 次 总 是 直接 合并 到 reduce, 


| 图 9-5 通过 合并 因子 10 有 效 地 合并 40 个 文件 片段 


96 任务 的 执行 


前 面 讲解 了 MapReduce 作业 的 运行 机 制 ,结合 整个 作业 的 运行 背景 知道 了 
MapReduce 是 如 何 执行 作业 的 ,本 节 介绍 MapReduce 用 户 对 任务 执行 的 更 多 的 控制 。 
9.6.1 任务 执行 环境 


1. 任务 属性 
在 MapReduce 程序 中 ,可 以 通过 某 些 环境 属性 (Configuration) 得 知 作业 和 任务 的 信 
息 。 属 性 介绍 如 表 9-1 所 示 。 


表 9-1 任务 执行 环境 的 属性 


属性 名 称 类 型 说 明 范 A 
mapred. job. id string | 作业 ID job_201104121233_0001 
mapred. tip. id string | 任务 ID task_201104121233_0001_m_000003 
mapred. task. id string | 任务 尝试 ID attempt_201104121233_0001_m_000003_0 
mapred. task. partition | int 作业 中 任务 ID 3 
mapred. task. nap string | 此 任务 是 否 是 map 任务 | true 
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2. Streaming 环境 变量 

Hadoop 设置 作业 配置 参数 作为 Streaming 程序 的 环境 变量 。 但 它 用 下 划 线 来 代替 非 
字母 数字 的 符号 ,以 确保 名 称 的 合法 性 。 下 面 这 个 Python Streaming 脚本 解释 了 如 何 用 
Python Streaming 脚本 来 检索 mapred. job. id 属性 的 值 。 


os-environ["mapred job id"] 


也 可 以 应 用 Streaming 启动 程序 的 -cmdenv 选项 ,来 设置 MapReduce 所 启动 
Streaming 进程 的 环境 变量 (一 次 设置 一 个 变量 )。 例 如 ,下 面 的 语句 设置 了 MAGIC_ 
PARAMETER 环境 变量 : 


— cmdenv MAGIC PARAMETER= abracadabra 


9.6.2 推测 执行 


MapReduce 模型 将 作业 分 解 成 任务 ,然后 并 行 地 运行 任务 以 使 作业 的 整体 执行 时 间 少 
于 各 个 任务 顺序 执行 的 时 间 。 这 使 作业 执行 时 间 对 运行 缓慢 的 任务 很 敏感 ,因为 只 运行 一 
个 缓慢 的 任务 会 使 整个 作业 所 用 的 时 间 远 远 长 于 执行 其 他 任务 的 时 间 。 当 一 个 作业 由 几 百 
或 几 干 任务 组 成 时 ,可 能 出 现 少 数 “ 拖 后 腿 ” 的 任务 ,这 是 很 常见 的 。 

任务 执行 缓慢 可 能 有 多 种 原因 ,包括 硬件 老化 或 软件 配置 错误 ,但 是 ,检测 具体 原因 很 
困难 ,因为 任务 总 能 够 成 功 完成 ,尽管 比 预 计 执 行 时 间 长 。Hadoop 不 会 尝试 诊断 或 修复 执 
行 慢 的 任务 ,相反 ,在 一 个 任务 运行 比 预 期 慢 的 时 候 , 它 会 尽量 检测 ,并 启动 另 一 个 相同 的 任 
务 作为 备份 。 这 就 是 所 谓 的 任务 的 “推测 执行 ”(speculative execution)。 

必须 认识 到 ,如 果 同 时 启动 两 个 重复 的 任务 ,它们 会 互相 竞争 ,导致 推测 执行 无 法 工作 。 
这 对 集群 资源 是 一 种 浪费 。 相 反 , 只 有 在 一 个 作业 的 所 有 任务 都 启动 之 后 才 启 动 推 测 执行 
的 任务 ,并且 只 针对 那些 已 运行 一 段 时间 ( 至 少 一 分 钟 ) 且 比 作业 中 其 他 任务 平均 进度 慢 的 
任务 。 一 个 任务 成 功 完成 后 ,任何 正在 运行 的 重复 任务 都 将 被 中 止 ,因为 已 经 不 再 需要 它们 
了 。 因 此 ,如 果 原 任务 在 推测 任务 前 完成 ,推测 任务 就 会 被 终止 :同样 地 ,如 果 推 测 任务 先 完 
成 ,那么 原 任务 就 会 被 中 止 。 

推测 执行 是 一 种 优化 措施 , 它 并 不 能 使 作业 的 运行 更 可 靠 。 如 果 有 一 些 软件 缺陷 会 造 
成 任务 挂 起 或 运行 速度 减 慢 ,依靠 推测 执行 来 避免 这 些 问 题 显然 是 不 明智 的 ,并 且 不 能 可 靠 
地 运行 ,因为 相同 的 软件 缺陷 可 能 会 影响 推测 式 任务 。 应 该 修复 软件 缺陷 ,使 任务 不 会 挂 起 
或 运行 速度 减 慢 。 

默认 情况 下 ,推测 执行 是 启用 的 。 可 以 基于 集群 或 基于 每 个 作业 ,单独 为 map 任务 和 
reduce 任务 启用 或 禁用 该 功能 。 相 关 的 属性 如 表 9-2 所 示 。 

为 什么 会 想到 关闭 推测 执行 ? 推测 执行 的 目的 是 减少 作业 执行 时 间 , 但 这 是 以 集群 效 
率 为 代价 的 。 在 一 个 繁忙 的 集群 中 ,推测 执行 会 减少 整个 吞吐 量 , 因 为 元 余 任 务 的 执行 时 会 
减少 作业 的 执行 时 间 。 鉴 于 此 ,一些 集 群 管理 员 倾 向 于 在 集群 上 关闭 此 选项 ,而 让 用 户 根据 
个 别 作业 需要 而 开启 该 功能 。Hadoop 老 版 本 尤其 如 此 ,因为 在 调度 推测 任务 时 ,会 过 度 使 
用 推测 执行 方式 。 
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表 9-2 ”推测 执行 的 属性 
属性 名 称 类 型 默 认 值 描 述 

an a 如 果 任 务 运行 变 慢 ,该 属性 

a 1 fs si ‘i ”| boolean| ture 决定 着 是 否 要 启动 map E 
speculative. execution 务 的 另外 一 个 实例 
mapred. reduce. tasks 如 果 任务 运行 变 慢 , 该 属性 

ae ` ”| boolean | true 决定 着 是 否 要 启动 reduce 


speculative. execution 


任务 的 另外 一 个 实例 


Yarn. app. mapreduce 


Org. apache. hadoop. mapreduce. v2. app. | Speculator 类 实现 推测 执行 
. am, job, speculator. Class 


din speculate. DefaultSpeculator 策略 (只 针对 MapReduce 2) 


Speculator 实例 使 用 的 
Yarn. app. mapreduce Class Org. apache. hadoop. mapreduce. v2. app. | TaskRuntimeEstimator 的 实 
. am, job, estimator. class speculate, LegacyTaskRuntimeEstimator 现 ,提供 任务 运行 时 间 的 估 
计 值 (只 针对 MapReduce) 


9.6.3 关于 OutputCommitters 


Hadoop MapReduce 使 用 一 个 提交 协议 来 确保 作业 和 任务 都 完全 成 功 或 失败 。 这 个 行 
为 通过 对 作业 使 用 OutputCommitter 来 实现 ,在 老 版 本 MapReduce API 中 通过 调用 
JobConf 的 setOutputCommitter( ) 或 配置 mapred. output. committer. class 来 设置 。 在 新 
版 本 的 MapReduce API 中 ，OutputCommitter 由 OutputFormat 通过 它 的 
getOutputCommitter( ) 方法 确定 。 默 认 值 为 FileOutputCommitter, 这 对 基于 文件 的 
MapReduce 是 适合 的 。 可 以 定制 已 有 的 OutputCommitter 或 者 在 需要 对 作业 或 任务 进行 
特别 的 安排 或 清理 时 ,甚至 还 可 以 写 一 个 新 的 实现 。 

OutputCommitter 的 API 如 下 所 示 ( 在 新 旧版 本 中 的 MapReduce API 中 ) 。 


public abstract class OutputCommitter{ 
publicabstract void setupJob (JobContext jobContext) throws IOException; 
public void commitJob (JobContext jobContext) throws IOException{} 
public void abortJob (JobContext jobContext, JobStatus.State state) 
throws IOException{} 
public abstract void setupTask (TaskAttemptContext taskContext) 
throws IOException; 
public abstract booleanneedsTaskCommit (TaskAttemptContext taskContext) 
throws IOException; 
public abstract void commitTask (TaskAttemptContext taskContext) 
throws IOException; 
public abstract void abortTask (TaskAttemptContext taskContext) 
hrows IOException; 

} 


setupjJob() 方 法 在 作业 运行 前 被 调用 ,通常 用 来 执行 初始 化 操作 。FileOutputCommitter() 
方法 通常 为 任务 创建 最 后 的 输出 目录 $ {mapred. output. dir} 以 及 一 个 临时 的 工作 空间 


$ {mapred. outpur. dir} /_temporary. 
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如 果 作 业 成 功 ,就 调用 commitJob() 方 法 ,在 默认 的 基于 文件 的 实现 中 , 它 用 于 删除 临时 的 
工作 空间 ,并 在 输出 目录 中 创建 一 个 名 为 _SUCCESS 的 隐藏 的 标志 文件 ,以 此 告知 文件 系统 的 
客户 端 读 该 作业 成 功 完成 了 。 如 果 作 业 不 成 功 ,就 通过 状态 对 象 调 用 abortJobO ,意味 着 该 作 
业 是 否 失败 或 终止 (例如 由 用 户 终止 )。 在 默认 的 实现 中 ,将 删除 作业 的 临时 工作 空间 。 

在 任务 级 别 上 的 操作 与 此 类 似 。 在 任务 执行 之 前 先 调用 setupTask() 方 法 ,默认 的 实 
现 不 做 任何 事情 ,因为 针对 任务 输出 命名 的 临时 目录 是 在 写 任务 输出 的 时 候 被 创建 。 

任务 的 提交 阶段 是 可 选 的 ,并 通过 从 needsTaskCommit() 返 回 的 false 值 关 闭 它 。 这 使 
得 执行 框架 不 必 为 任务 运行 分 布 提交 协议 ,也 不 需要 commitTask() 或 者 abortTask() 。 

当 一 个 任务 没有 写 任 何 输出 时 ,FileOutputCommitter 将 跳 过 提交 阶段 。 

如 果 任 务 成 功 , 就 调用 commitTask() ,在 默认 的 实现 中 它 将 临时 的 任务 输出 目录 ( 它 的 
名 字 中 有 任务 尝试 的 ID, 以 此 避免 任务 尝试 间 的 冲突 ) 移 动 到 最 后 的 输出 路 径 $ {mapred. 
output. dir} 。 否 则 ,执行 框架 调用 abortTask() , 它 负责 删除 临时 的 任务 输出 目录 。 

执行 框架 保证 特定 任务 在 由 多 次 任务 尝试 的 情况 下 只 有 一 个 任务 会 被 提交 ,其 他 的 则 
被 取消 。 这 种 情况 是 可 能 出 现 的 ,因为 第 一 次 尝试 出 于 某 个 原因 而 失败 (这 种 情况 下 将 被 取 
消 ) ,提交 的 是 稍 后 成 功 的 尝试 。 另 一 种 情况 是 如 果 两 个 任务 尝试 作为 推测 副本 同时 运行 ， 
则 提交 先 完成 的 ,而 另 一 个 被 取消 。 


9.6.4 任务 JVM 重用 


Hadoop 在 它们 自己 的 Java 虚拟 机 上 运行 任务 ,以 区 分 其 他 正在 运行 的 任务 。 为 每 个 
任务 启动 一 个 新 的 JVM 将 耗 时 大 约 1 秒 , 对 运行 1 分 钟 左 右 的 作业 而 言 .这 个 额外 消耗 是 
微不足道 的 。 但 是 ,有 大 量 超 短 任务 (通常 是 map 任务 ) 的 作业 或 初始 化 时 间 长 的 作业 , 它 
们 如 果 能 对 后 续 任 务 重用 JVM ,就 可 以 体现 出 性 能 上 的 优势 。 

启用 任务 重用 JVM 后 ,任务 不 会 同时 运行 在 一 个 JVM k. JVM 顺序 运行 各 个 任务 。 
然而 ,tasktracker 可 以 一 次 性 运行 多 个 任务 .但 都 是 在 独立 的 JVM 内 运行 的 。 

控制 任务 JVM 重用 的 属性 是 mapred. job. reuse. jvm. num. tasks, 它 指定 给 定 作 业 每 
个 JVM 运行 的 任务 的 最 大 数 , 默 认 值 为 1( 见 表 9-3)。 不 同 作 业 的 任务 总 是 在 独立 的 JVM 
内 运行 。 如 果 该 属性 设置 为 一 1, 则 意味 着 同一 作业 中 的 任务 都 可 以 共享 同一 个 JVM ,数量 
不 限 。JobConf 中 的 setrNumTasksToExecutePerjvm() 方 法 也 可 以 用 于 设置 这 个 属性 。 


表 9-3 任务 JVM 重用 的 属性 


属性 名 称 类 型 ”| RRA 描述 
mapred. job. reuse. jvm. 在 一 个 tasktracker 上 , 对 于 给 定 的 作业 的 每 个 
| 1 | JVM 上 可 以 运行 的 任务 最 大 数 。 一 1 表示 无 限 


num. tasks 


制 , 即 同一 个 JVM 可 以 被 该 作业 的 所 有 任务 使 用 


通过 充分 利用 HotSpot JVM 所 用 的 运行 时 优化 ,计算 密集 型 任务 也 可 以 受益 于 任务 
JVM 重用 机 制 。 在 运行 一 段 时 间 后 , HotSpot JVM 构建 足够 多 的 信息 来 检测 代码 中 的 性 
能 关键 部 分 ,并 将 热点 部 分 的 Java 字 节 码 动态 转换 成 本 地 机 器 码 。 这 对 运行 时 间 长 的 过 程 
很 有 效 , 但 对 于 那些 只 运行 几 秒 钟 或 几 分 钟 的 JVM ,不 能 充分 获得 HotSpot 带 来 的 好 处 。 
在 这 些 情况 下 ,值得 启用 任务 JVM 重用 功能 。 共 享 VM 的 另 一 个 非常 有 用 的 地 方 是 : E 


业 各 个 任务 之 间 的 状态 共享 。 通 过 在 静 
数据 。 


9.6.5 跳 过 坏 记 录 


大 型 数据 集 十 分 庞杂 。 它 们 经 常 有 损坏 的 记录 ,经 常 有 不 同 格式 的 记录 还 经 常 有 缺失 
的 字段 。 理 想 情况 下 ,用 户 代码 可 以 很 好 地 处 理 这 些 情况 。 但 实际 情况 中 ,忽略 这 些 坏 的 记 
录 只 是 权宜 之 计 。 这 取决 于 正在 执行 的 分 析 , 如 果 只 有 一 小 部 分 记录 受 影响 ,那么 忽略 它们 
不 会 显著 影响 结果 。 然 而 ,如 果 一 个 任务 由 于 遇 到 一 个 坏 的 记录 而 发 生 问题 ( 通 过 抛 出 一 个 
运行 时 异常 ) ,任务 就 会 失败 。 失 败 的 任务 将 被 重新 运行 (因为 失败 可 能 是 由 硬件 故障 或 任 
务 可 控 范 围 之 外 的 一 些 原因 造成 的 ) ,但 如 果 一 个 任务 失败 4 次 ,那么 整个 作业 会 被 标记 为 
失败 。 如 果 数 据 是 导致 任务 抛 出 异常 的 “元 凶 ”, 那 么 重新 运行 任务 将 无 济 于 事 , 因 为 它 每 次 
都 会 因 相 同 的 原因 而 失败 。 

处 理 坏 记录 的 最 佳 位 置 在 于 mapper 和 reducer 代码 。 可 以 检测 出 坏 记 录 并 忽略 它 ,或 
通过 抛 出 一 个 异常 来 中 止 作业 和 运行。 还 可 以 使 用 计数 器 来 计算 作业 中 总 的 坏 记 录 数 ,看 问 
题 影响 的 范围 有 多 广 。 

极 少 数 情况 是 不 能 处 理 的 ,例如 软件 缺陷 (bug) 存 在 于 第 三 方 的 库 中 ,无 法 在 mapper 
或 reducer 中 修改 它 。 在 这 些 情况 下 ,可 以 使 用 Hadoop 的 skipping mode 选项 来 自动 跳 过 
坏 记 录 。 启 用 skipping mode 后 ,任务 将 正在 处 理 的 记录 报告 给 tasktracker。 任 务 失败 时 ， 
tasktracker 重新 运行 该 任务 , 跳 过 导致 任务 失败 的 记录 。 由 于 额外 的 网 络 流量 和 记录 错误 
以 维护 失败 记录 范围 ,所 以 只 有 在 任务 失败 两 次 后 才 会 启用 skipping mode。 因 此 对 于 一 个 
一 直 在 某 条 坏 记 录 上 失败 的 任务 ,tasktracker 将 根据 以 下 运行 结果 来 启动 任务 尝试 。 

(1) 任务 失败 。 

(2) 任务 失败 。 

(3) 开启 skipping mode。 任 务 失 败 , 但 是 失败 记录 由 tasktracker 保存 。 

(4) 仍然 启用 skipping mode。 任 务 继续 运行 ,但 跳 过 上 一 次 尝试 中 失败 的 坏 记录 。 

在 默认 情况 下 ,skipping mode 是 关闭 的 ,用 SkipBadRedcord 类 单独 为 map 和 reduce 
任务 启用 此 功能 。 值 得 注意 的 是 ,每 次 任务 尝试 ,skipping mode 都 只 能 检测 出 一 个 坏 记 录 ， 
因此 这 种 机 制 仅 适用 于 检测 个 别 坏 记录 (也 就 是 说 ,每 个 任务 只 有 少数 几 个 坏 记录 )。 为 了 
给 skipping mode 足够 多 尝试 次 数 来 检测 并 跳 过 一 个 输入 分 片 中 的 所 有 坏 记 录 , 需 要 增加 
最 多 任务 尝试 次 数 (通过 mapred. map. max. attemps 和 mapred. reduce. max. attemps 进行 
设置 )。 

Hadoop 检测 出 来 的 坏 记 录 以 序列 文件 的 形式 保存 在 _logs/skip 子 目录 下 的 作业 输出 
目录 中 。 在 作业 完成 后 ,可 查看 这 些 记录 (例如 ,使 用 hadoop fs -text) 进 行 诊断 。 


a 


字段 中 存储 相关 数据 ,任务 可 以 较 快速 访问 共享 


97 作业 的 调度 


早期 版 本 的 Hadoop 使 用 一 种 非常 简单 的 方法 来 调度 用 户 的 作业 : 按照 作业 提交 的 顺 
序 ,使 用 FIFO( 先 进 先 出 ) 调 度 算 法 来 运行 作业 。 典 型 情况 下 ,每 个 作业 都 会 使 用 整个 集 
群 ,因此 作业 必须 等 待 ,直到 轮 到 自己 运行 。 虽 然 共享 集群 极 有 可 能 为 多 用 户 提供 大 量 资 
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源 , 但 问题 在 于 如 何 公平 地 在 用 户 之 间 分 配 资源 ,这 需要 一 个 更 好 的 调度 器 。 生 产 作 业 需 要 
及 时 完成 ,以 便 正在 进行 即兴 查询 的 用 户 能 够 在 合理 的 时 间 内 得 到 返回 结果 。 

随后 ,加 入 设置 作业 优先 级 的 功能 ,可 以 通过 设置 mapred. job. priority 属性 或 
JobClient 的 setJobPriority( ) 方 法 来 设置 优先 级 (在 这 两 种 方法 中 ,可 以 选择 VERY _ 
HIGH,HIGH,NORMAL,LOW,VERY_LOW 中 的 一 个 值 作为 优先 级 )。 作 业 调 度 器 选 
择 要 运行 的 下 一 个 作业 时 , 它 选择 的 是 优先 级 最 高 的 那个 作业 。 然 而 ,在 FIFO 调度 算法 
中 ,优先 级 并 不 支持 抢占 (preemption) ,所 以 高 优先 级 的 作业 仍然 会 被 那些 在 高 优先 级 作业 
被 调度 之 前 已 经 开始 的 ,长 时 间 运 行 的 低 优先 级 的 作业 所 阻塞 。 

在 Hadoop 中 ,可 以 选择 MapReduce 的 调度 器 。MapReduce 1 的 默认 调度 器 是 最 初 基 
于 队列 的 FIFO 调度 器 ,还 有 两 个 多 用 户 调度 器 ,分 别名 为 公平 调度 器 (Fair Scheduler) 和 容 
量 调度 器 (Capacity Scheduler) 。 


9.7.1 公平 调度 器 


公平 调度 器 (Fair Scheduler) 的 目标 是 让 每 个 用 户 公 平地 共享 集群 能 力 。 如 果 只 有 一 
个 作业 在 运行 , 它 会 得 到 集群 的 所 有 资源 。 随 着 提交 的 作业 越 来 越 多 ,空闲 的 任务 槽 会 以 
“让 每 个 用 户 公平 共享 集群 这 种 方式 进行 分 配 。 某 个 用 户 的 耗 时 短 的 作业 将 在 合理 的 时 间 
内 完成 ,即便 另 一 个 用 户 的 长 时 间作 业 正 在 运行 而 且 还 在 运行 过 程 中 。 

作业 都 被 放 在 作业 池 中 ,在 默认 情况 下 ,每 个 用 户 都 有 自己 的 作业 池 。 提 交 作 业 数 超过 
另 一 个 用 户 的 用 户 ,不 会 因此 而 比 后 者 获得 更 多 集群 资源 。 可 以 用 map 和 reduce 的 任务 槽 
数 来 定制 作业 池 的 最 小 容量 ,也 可 以 设置 每 个 池 的 权重 。 

公平 调度 器 支持 抢占 机 制 , 所 以 ,如 果 一 个 池 在 特定 的 一 段 时 间 内 未 得 到 公平 的 资源 共 
享 , 它 会 中 止 运行 池 中 得 到 过 多 资源 的 任务 ,以便 把 任务 槽 让 给 运行 资源 不 足 的 池 。 

公平 调度 器 是 一 个 后 续 模 块 。 要 使 用 它 , 需 要 将 其 JAR 文件 放 在 Hadoop 的 类 路 径 
(classpath) ,即将 它 从 Hadoop 的 contrib/fairscheduler 目录 复制 到 lib 目录 。 随 后 , 像 下 面 
这 样 设置 mapred. jobtracker. taskScheduler 属性 : 


org.apache.hadoop.mapred.FairScheduler 


经 过 这 样 的 设置 后 , 即 可 运行 公平 调度 器 。 但 要 想 充分 发 挥 它 特 有 的 优势 和 了 解 如 何 
配置 它 ( 包 括 它 的 网 络 接口 ) ,请 参阅 Hadoop 发 行 版 src/contrib/fairscheduler 目录 下 的 
README 文件 。 


9.7.2 容量 调度 器 


容量 调度 器 (Capacity Scheduler) 的 每 个 队列 中 采用 的 调度 策略 是 FIFO 算法 。 

容量 调度 器 默认 情况 下 不 支持 优先 级 ,但 是 可 以 在 配置 文件 中 开启 此 选项 ,如 果 支 持 优 
先 级 ,调度 算法 就 是 带 有 优先 级 的 FIFO, 

容量 调度 器 不 支持 优先 级 抢占 ,一 旦 一 个 作业 开始 执行 ,在 执行 完成 之 前 它 的 资源 不 会 
被 高 优先 级 作业 所 抢占 。 

容量 优先 级 对 队列 中 同一 个 用 户 提交 的 作业 能 够 获得 的 资源 百分比 进行 限制 ,以 避免 
同属 于 一 个 用 户 的 作业 独 享 资源 的 情况 。 


98 在 YARN 上 运行 MapReduce 实例 


运行 现 有 的 MapReduce 实例 是 一 个 很 直接 的 过 程 。 该 实例 位 于 hadoop- 
[VERSION]/share/hadoop/mapreduce。 根 据 安装 Hadoop 的 位 置 , 这 个 路 径 可 能 会 不 同 。 
为 了 完成 这 个 实例 ,我 们 把 这 个 路 径 定义 为 


export YARN HOME= /home/zkpk/hadoop- 2.5.1 
export YARN EXAMPLES=$ YARN HOME/share/hadoop/mapreduce 


作为 安装 过 程 的 一 部 分 ,需要 定义 $ YARN_HOME, 而 且 , 本 节 的 实例 还 有 一 个 版 本 
号 一 一 2. 5.1。 你 的 安装 包 可 能 有 不 同 的 版 本 号 。 下 面 的 论述 提供 了 一 些 基于 Hadoop 
YARN 的 MapReduce 程序 和 基准 测试 。 


9.8.1 运行 Pi 实例 
为 了 运行 带 有 16 个 Map 和 10000 个 样本 的 pi 实例 ,输入 以 下 命令 : 
$ hadoop jar $ YARN_EXAMPLES/hadoop- mapreduce- examples- 2.5.1.jar pi 16 10000 


若 程序 正确 运行 ,可 以 看 到 如 下 信息 (在 日 志 信息 之 后 ) : 


15/12/29 INFO mapreduce.Job: map 0% reduce 0% 
15/12/29 INFO mapreduce.Job: map 38% reduce 0% 

15/12/29 INFO mapreduce.Job: map 63% reduce 0% 

15/12/29 INFO mapreduce.Job: map 75% reduce 0% 

15/12/29 INFO mapreduce.Job: map 75% reduce 25% 

15/12/29 INFO mapreduce.Job: map 100% reduce 25% 

15/12/29 INFO mapreduce.Job: map 100% reduce 100% 

15/12/29 INFO mapreduce.Job: Job job 1451378073339 6001 completed succe 
ssfully 


15/12/29 16:38:18 INFO mapreduce.Job: Counters: 49 
File System Counters 

FILE: Number of bytes read=358 
FILE: Number of bytes written=1651406 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read=4182 
HOFS: Number of bytes written=215 
HDFS: Number of read operations=67 
HOFS: Number of large read operations=0 
HOFS: Number of write operations=3 


Job Counters 
Launched map tasks=16 
Launched reduce tasks=1 
Data-local map tasks=16 
Total time spent by all maps in occupied slots (ms)=793095 
Total time spent by all reduces in occupied slots (ms)=45064 
Total time spent by all map tasks (ms)=793095 
Total time spent by all reduce tasks (ms)=45064 
Total vcore-seconds taken by all map tasks=793095 
Total vcore-seconds taken by all reduce tasks=45064 
Total megabyte-seconds taken by all map tasks=812129280 
Total megabyte-seconds taken by all reduce tasks=46145536 
Map-Reduce Framework 
Map input records=16 


Map output materialized bytes=448 
Input split bytes=2294 

Combine input records=0 

Combine output records=0 

Reduce input groups=2 

Reduce shuffle bytes=448 

Reduce input records=32 
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Reduce output records=8 
Spilled Records=64 
Shuffled Maps =16 
Failed Shuffles=0 
Merged Map outputs=16 
GC time elapsed (ms)=8766 
CPU time spent (ms)=13460 
Physical memory (bytes) snapshot=3479724032 
Virtual memory (bytes) snapshot=14234632192 
Total committed heap usage (bytes)=2183528448 

Shuffle Errors 
BAD_ID=0 
CONNECTION=0 
I0_ERROR=6 
WRONG_LENGTH=9 
WRONG _MAP=0 
WRONG REDUCE=0 

File Input Format Counters 
Bytes Read=1888 

File Output Format Counters 
Bytes Written=97 

Job Finished in 179.465 Seconds, 
Estimated value of Pi is| 


需要 注意 的 是 ,MapReduce 的 进度 的 显示 方式 与 第 1 版 的 MapReduce 相同 ,但 是 应 用 
的 统计 不 同 。 大 多 数 的 统计 无 须 过 多 解释 。 需 要 注意 的 一 个 重要 事项 就 是 应 用 YARN 
“MapReduce 框架 ?运行 程序 。 使 用 这 个 框架 , 旨 在 与 第 1 版 Hadoop 兼容 。 


9.8.2 使 用 Web GUI 监控 实例 


Hadoop YARN 的 Web GUI 与 第 1 版 的 Hadoop 不 同 。 这 部 分 提供 了 图 解 来 说 明 怎 
样 使 用 Web GUI 来 监控 和 获取 YARN 作业 的 信息 。YARN 的 Web 主 界面 (http:// 
hostname( 主 机 名 ) :18088) 如 图 9-6 所 示 。 这 个 例子 中 我 们 使 用 了 pi 应 用 , 它 可 能 在 你 探 
究 GUI 之 前 就 快速 地 运行 和 结束 了 。 一 个 长 时 间 运 行 的 应 用 ,如 terasort, 对 于 探索 GUI 
上 的 各 种 链接 很 有 帮助 。 
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图 9-6 Hadoop YARN 中 pi 实例 的 运行 状态 应 用 的 Web 界面 


如 果 看 看 集群 的 监控 指标 列表 ,你 会 看 到 一 些 新 的 信息 。 首 先 看 到 的 不 是 第 1 版 
Hadoop 的 “Map/Reduce Task Capacity”. 现在 是 运行 中 Container 数量 的 信息 。 如 果 
YARN 中 运行 这 个 MapReduce 作业 ,这 些 Container 既 用 于 Map ,也 用 于 Reduce 任务 。 与 
第 1 版 Hadoop 不 同 ,Map 与 Reduce 的 数量 不 是 固定 不 变 的 。 也 有 一 些 内 存 监控 指标 和 节 
点 状态 链接 。 如 果 点 开 节 点 链接 ,会 看 到 该 节点 活动 的 概述 。 例 如 ,图 9-7 为 pi 应 用 在 运 
行 中 时 ,一 个 节点 活动 的 快照 。 再 次 注意 ,MapReduce 框架 使 用 的 Container 的 数量 ,这 些 
Container 既 可 以 用 于 Map, 也 可 以 用 于 Reduce, 
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图 9-7 


回 到 Applications/Running 的 主 窗口 ,如 果 单 击 application_1 


口 会 呈现 出 来 ,如 图 9-8 所 示 。 这 个 窗口 提供 一 些 类 
但 只 有 被 选中 的 那个 作业 的 信息 。 


口 htpymaster1..378073339_0001 [| 


Hadoop YARN 节点 状况 窗口 


5... 的 链接 ,应 用 状态 窗 
似 前 面 的 运行 中 应 用 程序 列表 的 窗口 ， 
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图 9-8 Hadoop YARN 的 pi 实例 中 应 用 的 状态 


单 击 图 9-8 中 Tracking URL:ApplicationMaster 的 链接 ,会 到 图 9-9 中 的 窗口 。 需 要 
注意 的 是 ,应 用 的 ApplicationMaster 的 链接 处 于 在 运行 中 应 用 页 面 的 最 后 一 列 。 
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| [® masterlaosaiproxyapplcation 1 


5137 


Bi) [He cone =} 


Logged n as: arumo 


MapReduce Application 
application_1451378073339_ 0001 


+ Cluster Active Jobs 
= a> 7 z Search: j 
Maps Maps Reduces 
x E A ET Reduce Reduces 
Job 1D N © | state © | progresso Tal Completed progress | Total Completed 


job_1451378073339_0001 QuasiMontecario RUNNING [ 5 [ 


Showing 1 to 1 of 1 entries 


16 1 o 


Prst Previous 1 Next Last.| 


图 9-9 Hadoop YARN MapReduce 应 用 的 ApplicationMaster 


MapReduce 的 工作 机 制 与 YARN 平台 


在 MapReduce 的 应 用 窗口 中 可 以 获取 MapReduce 作业 的 详细 信息 。 单 击 “job_ 


145...” 可 以 跳 转 到 如 图 9-10 所 示 的 窗口 (你 的 作业 ID 可 能 会 不 同 ) 。 


DMapReduce Job job 145137807... | 4| 


v B) E~ Soge 


和 [@ master:18088/proxy/application_1451378073339_0001/mapreducejob/job_145137807333) 


Chena 


MapReduce Job 
job_1451378073339_0001 


Logged in as: drwho 


» Cluster Job Overview 
» Application Job Name: QuesiMonteCarlo 
ob = State: RUNNING 
Uberized: false 
Counters Started: Tue Dec 29 16:35:39 CST 2015 
Configuration : 1mins, Bsec 
Map tasks = ae a 
Reduce tasks ApplicationMaster 
AM Logs Attempt Number Start Time Node Logs 
aaa 1 Tue Dec 29 16:35:30 CST 2015 slave:8042 logs 
Task Type Progress Total Pending Running Complete 
Map | ] 16 4 5 5 
Reduce [ 1 1 o o 
Attempt Type New Running Failed Killed Successful 
Maps 4 5 o o 5 
Reduces 1 o o 0 a 


图 9-10 Hadoop YARN MapReduce 应 用 的 ApplicationMaster 


现在 展示 了 更 多 的 作业 状态 。 当 作业 结束 时 ,图 9-8 中 的 窗口 会 更 新 到 如 图 9-11 所 示 


的 状态 。 区 别 见 红色 框 部 分 。 


口 htpymaster1..378073339_0001 [| 


图 9-11 


Hadoop YARN 应 用 概述 页 面 


若 单 击 用 于 运行 ApplicationMaster 的 节点 (本 例子 中 是 slave:8042) ， 


4 中 (@ master:18089/cluster/appapplication_1451378073339_0001 vE) [Mv Soo 的 重 
Z Logged in as:drwho 
Q aca, 
~ Cluster | Application Overview 
About z zkpk 
Nodes QuasiMonteCarlo 
Applications Application Type: MAPREDUCE 
NEW ication Tags: 
EY SAVING Appli g: 
SUBMITTED State: FINISHED 
ACCEPTED FinalStatus: SUCCEEDED 
Started: 29-Dec-2015 16:35:21 
FAILED Elapsed: 2mins, = 
KILLED Tracking URL:| [ History | 
Scheduler Diagnostics: 
» Tools ApplicationMaster 
Attempt Number Start Time Node Logs 
1 29-Dec-2015 16:35:21 Slave:8042 logs 
About Apache Hadoop 


如 图 9-12 所 示 的 


窗口 会 打开 并 提供 一 些 NodeManager 的 概述 信息 。 同 样 , NodeManager 跟踪 的 只 有 


o? 


Container. #7 Container 运行 的 任务 由 ApplicationMaster 确定 。 


http://slave:8042/node lal | 
和 和 [@ slave:8042/node YB) [Mv cooge a) @ 
Z Logged in as: drwho 
Q ELBE 
» ResourceManager | NodeManager information 
~ NodeManager Total Vmem allocated 16.80 GB 
Node Information for Containers 
List of Vmem enforcement true 
Applications enabled 
List of Containers Total Pmem allocated 8 GB 
for Container 
» Tools Pmem enforcement true 
enabled 
Total VCores allocated 8 
for Containers 


NodeHealthyStatus true 
LastNodeHealthTime Tue Dec 29 16:36:35 CST 2015 
NodeHealthReport 
Node Manager Version: 2.5.1 from 2e18d179e4a8065b6a9f29cf2de9451891265cce by 
jenkins source checksum 46b0a050ca88877b878d99f4839de2 on 
2014-09-05T23:23Z 
Hadoop Version: 2.5.1 from 2e18d179e4a8065b6a9f29cf2de9451891265cce by 
jenkins source checksum 6424fcab9Sbfff8337780a181ad7c78 on 
___2014-09-05T23:11Z 


图 9-12 Hadoop YARN NodeManager 作业 概述 


回 到 作业 概述 页 面 . 也 可 以 通过 单 击 logs 链接 检查 ApplicationMaster 的 日 志 。 在 结 
果 窗 口中 ,可 以 看 到 stderr, stdout 和 syslog, 如 图 9-13 所 示 。 


E logs forcontainer 1451378073 [a 
ontainer_1451378073339_0001_01_000001/zkpk v R) [Sv coogl 的 | @ 


和 [@ slave:£042/node;containe 


Z Logged in as: drwho 
(EcoD Logs for 
container_1451378073339 0001 01 000001 


~ ResourceManager m: , 
RM Home | - 


» NodeManager 
+ Tools 


图 9-13 可 浏览 的 Hadoop YARN NodeManager 日 志 


如 果 回 到 集群 的 主 窗口 ,选择 Applications/Finished, 可 以 看 到 如 图 9-14 所 示 的 概述 

页 面 。 
通过 如 前 所 述 的 窗口 移动 ,有 三 方面 需要 注意 。 
(1) 因为 YARN 管理 应 用 ,所 有 YARN 的 输入 都 传递 给 应 用 程序 。YARN 没有 实际 
应 用 程序 的 数据 。MapReduce 作业 的 数据 是 MapReduce 框架 提供 的 。 因 此 ,Web GUI 由 
两 种 明显 不 同 的 数据 流 组 成 : YARN 应 用 和 MapReduce 框架 作业 ,如 果 框 架 未 提供 作业 信 
息 ,那么 Web GUI 的 这 个 部 分 不 显示 任何 信息 。 

(2) Map 和 Reduce 任务 的 动态 属性 。 这 些 任务 以 YARN 的 Container 的 方式 执行 , 它 


第 9 章 
| MepReducs 的 工作 机 制 与 YARN 平 台 o? 


er 
alaraja) FINISHED Applications 
Cluster Metrics 
apps | Apps | Apps | Apps | Containers | Memory | Memory Memory | Vores | vcares | Vcores Active | Decommission | Lost Unheathy | Rebooted 
| 站 "odes / "Woden "| Nodes“ Nodes” | Nodes 
1 0 0 1 0 0 ac 0 0 8 0 1 0 o o 
[Shom 20 -Jenties E 一 = 一 = Sum 
中 a D mame o APPIGUONTYPS Queues sortTmes FishTime © State s FinalStatus © Progress © TaCking UI 
apalication 1451978073330 9001 shpk QuasMonteCarlo MAPREDUCE default Tue.29Dee Tue 1gpec FNISHED SUCCEEDED [0 History 
Bas2 eses cur 
our 
| Showing 1 to 1 of 1 entries Fist Previous 1 Ment dase | 
图 9-14 Hadoop YARN 结束 应 用 界面 
们 的 数量 会 随 着 应 用 程序 运行 发 生变 化 。 由 于 去 掉 了 静态 插 槽 ,这 个 特性 提供 了 更 好 的 集 
群 利用 率 。 


(3) 可 以 研究 一 下 窗口 上 其 他 链接 (如 图 9-11 中 的 History 链接 )。 使 用 MapReduce 
框架 ,可 以 更 深入 地 查询 独立 的 Map 和 Reduce 任务 。 如 果 开 启 了 日 志 聚 合 功能 ,那么 可 以 
查看 每 个 Map 和 Reduce 任务 独立 的 日 志 。 


2 扩展 阅读 
YARN 上 的 日 志 聚 合 功能 
有 了 YARN, 对 于 同属 于 一 个 应 用 且 运 行 于 一 个 给 定 的 NodeManager 的 所 有 
Container 的 日 志 , 可 以 聚合 并 写 到 指定 文件 系统 中 配置 的 目录 里 的 一 个 单独 的 (可 能 被 
压缩 ) 日 志文 件 中 。 在 目前 的 实现 中 ,一 旦 应 用 完成 了 ,就 可 以 得 到 一 个 应 用 级 的 日 志 目 
录 和 与 节点 一 一 对 应 的 日 志文 件 , 其 中 包括 了 运行 在 该 节点 上 这 个 应 用 的 所 有 


Container 的 日 志 。 


本 章 小 结 


本 章 主 要 介绍 了 MapReduce 的 工作 机 制 , 主 要 包括 MapReduce 的 运行 机 制 (Hadoop 2. 0 
版 本 )、shuffle 和 排序 任务 的 执行 、 作 业 的 调度 和 YARN 这 几 个 方面 ,具体 有 以 下 几 点 。 

(1) 了 解 MapReduce 2 解决 了 MapReduce 1 的 哪些 问题 。 

(2) 重点 掌握 Hadoop 使 用 YARN 运行 MapReduce 的 过 程 以 及 在 MapReduce 2 系统 
中 状态 更 新 信息 的 过 程 。 

(3) 重点 掌握 MapReduce 的 shuffle 和 排序 过 程 。 

(4) 前 面 讲解 了 MapReduce 作业 的 运行 机 制 , 结 合 整个 作业 的 运行 背景 知道 了 
MapReduce 是 如 何 执行 作业 的 ,掌握 MapReduce 用户 对 任务 执行 的 更 多 的 控制 。 

(5) 为 了 公平 地 在 用 户 之 间 分 配 资源 、 及 时 完成 生产 作业 的 需要 能够 设置 作业 优先 级 
等 功能 我 们 学 习 了 三 种 作业 调度 器 ,分 别 是 FIFO 调度 器 .公平 调度 器 (Fair Scheduler) 和 容 
量 调度 器 (Capacity Scheduler)。 重 点 掌握 公平 调度 器 和 容量 调度 器 ,理解 两 种 调度 器 的 


区 别 。 

(6) 通过 添加 新 的 功能 ,YARN 为 Apache Hadoop 的 工作 流程 带 来 了 新 的 组 件 。 重 点 
掌握 YARN 的 结构 以 及 YARN 各 个 组 件 的 功能 。 
(7) 掌握 在 YARN 上 运行 MapReduce 的 pi 实例 和 Web GUI 监控 实例 。 


习题 
1. 选择 题 
(1) YARN 上 的 MapReduce 实体 不 包括 ( 。”)。 
A. NodeManager B. client C. jobtracker D. NodeManager 


(2) 每 个 map 任务 都 有 一 个 环形 内 存 缓冲 区 用 于 存储 任务 的 输出 。 默 认 情 况 下 ,缓冲 
区 的 大 小 为 ( )MB。 


A. 32 B. 64 C. 100 D. 128 
(3) 下 列 ( ) 不 属于 MapReduce 的 调度 器 。 

A. FIFO 调度 器 B. 公平 调度 器 

C. 内 核 调度 器 D. 容量 调度 器 


(4) 对 于 YARN ResourceManager 的 理解 ,( ) 是 不 正确 的 。 
A. YARN ResourceManager 负责 整个 系统 的 资源 管理 和 分 配 
B. YARN 提供 了 多 种 直接 可 用 的 调度 器 ,例如 内 核 调度 器 
C. YARN ResourceManager 主要 由 两 个 组 件 构成 : 调度 器 和 应 用 程序 管理 器 
D. YARN ResourceManager 是 一 个 纯粹 的 调度 器 
(5) NodeManager 的 职责 不 包括 ( Dis 
A. 与 调度 器 协商 资源 
B. 保证 已 启用 的 容器 不 使 用 超过 分 配 的 资源 量 
C. 为 task 构建 容器 环境 
D. 为 所 在 的 节点 提供 一 个 管理 本 地 存储 资源 的 简单 服务 
2. 问答 题 
(1) MapReduce 2 中 作业 的 运行 过 程 是 什么 ? 
(2) shuffle 的 概念 是 什么 ? MapReduce 的 shuffle 和 排序 的 具体 过 程 是 什么 ? 
(3) 如 果 有 50 个 map 输出 ,而 合并 因子 默认 是 10 ,每 趟 合并 的 文件 数 怎么 样 设计 才能 
达到 优化 ? 
(4) 简单 讲述 一 下 公平 调度 器 与 容量 调度 器 各 自 优 点 与 缺点 。 
(5) 简单 总 结 一 下 YARN 的 发 展 与 作用 。 
(6) YARN ResourceManager 主要 由 哪 两 个 组 件 组 成 ? 它们 的 功能 分 别 是 什么 ? 
(7) ApplicationMaster 和 NodeManager 的 主要 职责 分 别 是 什么 ? 
(8) ResourceRequest 的 形式 是 怎样 的 ? 并 简单 描述 一 下 其 中 的 组 成 模块 。 
(9) YARN Container 的 启动 API 是 与 平台 无 关 的 , 它 包括 哪些 重要 元 素 ? 


MapReduce 高 级 开发 


本 章 提 要 


在 前 面 的 章节 中 已 经 对 MapReduce 作 了 详细 的 介绍 。 首 先是 认识 MapReduce 编程 模 
型 ,讲解 了 MapReduce 架构 及 其 作业 的 生命 周期 ;其 次 是 MapReduce 应 用 编程 的 开发 , 主 
要 介绍 了 MapReduce 编程 和 Java API 解析 ,以 及 在 集群 上 是 如 何 运作 的 ,最 后 介绍 了 
MapReduce 的 工作 机 制 与 YARN 平台 。 这 些 都 让 我 们 对 MapReduce 有 了 更 深入 的 了 解 。 

本 章 将 介绍 MapReduce 的 一 些 高 级 特性 ,如 计数 器 .数据 集 的 排序 和 连接 。 计 数 器 是 
一 种 收集 作业 统计 信息 的 有 效 手 段 , 排 序 是 MapReduce 的 核心 技术 ,MapReduce 也 能 够 执 
行 大 型 数据 集 间 的 “连接 (join)” 操 作 。 


10.1 tt 数 器 


计数 器 是 一 种 收集 作业 统计 信息 的 有 效 手 段 ,用 于 质量 控制 或 应 用 级 统计 。 计 数 器 还 
可 用 于 辅助 诊断 系统 故障 。 对 于 大 型 分 布 式 系统 来 说 ,获取 计数 器 比分 析 日 志文 件 容易 
得 多 。 
10.1.1 内 置 计数 器 


Hadoop 为 每 个 作业 维护 若干 内 置 计数 器 ( 表 10-1) ,以 描述 该 作业 的 各 项 指标 。 例 如 ， 
某 些 计数 器 记录 已 处 理 的 字 节 数 和 记录 数 ,使 用 户 可 监控 已 处 理 的 输入 数据 量 和 已 产生 的 
输出 数据 量 。 
表 10-1 内 置 计 数 器 


组 Sl 计算 器 名 称 说 明 

作业 中 所 有 map 已 处 理 的 输入 记录 数 。 每 次 

map 输入 的 记录 RecordReader 读 到 一 条 记录 并 将 其 传 给 map 的 函数 
时 ,这 个 计数 器 的 值 增加 

ee i map 跳 过 的 记录 作业 中 所 有 map 跳 过 的 输入 记录 数 

作业 中 所 有 map 已 处 理 的 未 压缩 输入 数据 的 字 节 。 

map 输入 的 字 节 数 每 次 RecordReader 读 到 一 条 记录 并 将 其 传 给 map 
的 map() 函 数 时 ,这 个 计数 器 的 值 增加 


技术 基础 
续 表 
组 别 计算 器 名 称 说 明 
作业 中 所 有 map 产生 的 map 输出 记录 数 。 每 次 map 
map 输出 某 一 个 的 记录 | 的 OutputCollector 调用 collect() 方 法 时 ,这 个 计数 
器 的 值 增 加 
作业 中 所 有 map 已 产生 的 未 压缩 输出 数据 的 字 节 
map 输出 的 记录 数 。 每 次 某 一 个 map 的 OutCollector 调用 collect() 
方法 时 ,这 个 计数 器 的 值 增 加 
作业 中 所 有 combiner( 如 果 有 ) 已 处 理 的 输入 记录 数 。 
combiner 的 迭代 器 每 次 读 一 个 值 ,这 个 计数 器 的 值 增 
combine 输入 的 记录 加 。 注 意 : 计数 器 代表 combiner 已 经 处 理 的 值 的 个 
数 ,并 非 相 异 码 分 组 数 ,后 者 并 无 实质 意义 ,因为 对 于 
combiner 而 言 ,并 不 要 求 每 个 键 对 应 一 个 组 
作业 中 所 有 combi ner( 如 果 有 ) 已 产生 的 输出 记录 
Map-Reduce 框架 combine 输出 的 记录 数 。 每 次 某 一 个 combirier 的 OutputCollecl: or 调用 
collect() 方 法 时 ,这 个 计数 器 的 值 增加 
作业 中 所 有 reducer 已 经 处 理 的 相 异 码 分 组 的 个 数 。 
reduce 输入 的 组 每 当 某 一 个 reducer 的 reduce() 被 调用 时 ,这 个 计数 
器 的 值 增加 
作业 中 所 有 reducer 已 经 处 理 的 输入 记录 的 个 数 。 
reduce 输入 的 记录 当 某 个 reducer 的 迭代 器 读 一 个 值 时 ,这 个 计数 器 的 
值 增加 。 如 果 所 有 reducer 已 经 处 理 完 所 有 输入 , 则 
这 个 计数 器 的 值 与 计数 器 outpul records 的 值 相 同 
作业 中 所 有 map 已 经 产生 的 reduce 输出 记录 数 。 某 
reduce 每 当 输 出 的 记录 | 个 reducer 的 OutputCollector 调用 collect() 方 法 时 ， 
这 个 计数 器 的 值 增加 
reduce 跳 过 的 记录 作业 中 所 有 redueer 已 经 跳 过 的 输入 记录 的 个 数 
溢出 的 记录 作业 中 所 有 map 和 reduce 任务 溢出 到 磁盘 的 记录 数 
map 和 reduce 任务 从 每 个 文件 系统 读 出 的 字 节 数 。 
文件 系统 读 的 字 节 每 个 文件 系统 对 应 一 个 计数 器 ,例如 Local, HDFS, 
文件 系统 S3、KFS 等 
文件 系统 写 的 字 节 map 和 reduce 任务 写 到 每 个 文件 系统 的 字 节 数 
已 启用 的 map 已 启动 的 map 任务 数 ,包括 推测 执行 的 任务 
已 启用 的 reduce 已 启动 的 reduce 任务 数 ,包括 推测 执行 的 任务 
失败 的 map 任务 失败 的 map 任务 数 
作业 计数 
数据 本 地 的 map 任务 与 输入 数据 处 于 同一 节点 的 map 任务 数 
与 输入 数据 不 在 同一 机 架 的 map 任务 数 。 由 于 机 架 
机 架 本 地 的 map 任务 之 间 的 带宽 较 小 , Hadoop 会 尽量 使 map 任务 靠近 输 


入 数据 ,因而 这 个 计数 器 的 值 一 般 较 小 


计数 器 由 其 关联 任务 维护 ,并 定期 传 给 tasktracker, 再 由 tasktracker 传 给 jobtracker。 
因此 ,计数 器 能 够 被 全 局 地 聚集 。 与 其 他 计数 器 (包括 用 户 定义 的 计数 器 ) 不 同 , 内 置 的 作业 


计数 器 实际 上 由 jobtracker 维护 ,不 必 在 整个 网 络 中 发 送 。 

一 个 任务 的 计数 器 值 每 次 都 是 完整 传输 的 ,而 非 自 上 次 传输 之 后 再 继续 数 未 完成 的 传 
输 ,以 避免 由 于 消息 丢失 而 引发 的 错误 。 另 外 ,如 果 一 个 任务 在 作业 执行 期 间 失 败 , 则 相关 
计数 器 值 会 减 小 。 仅 当 一 个 作业 执行 成 功 之 后 ,计数 器 的 值 才 是 完整 可 靠 的 。 


10.1.2 自 定义 的 Java 计数 器 


MapReduce 允许 用 户 编 写 程序 来 定义 计数 器 ,计数 器 的 值 可 在 mapper 或 reducer 中 增 
加 。 多 个 计数 器 由 一 个 Java 枚 举 (enum) 类 型 来 定义 ,以 便 对 计数 器 分 组 。 一 个 作业 可 以 
定义 的 枚 举 类 型 数量 不 限 , 各 个 枚 举 类 型 所 包含 的 字段 数量 也 不 限 。 枚 举 类 型 的 名 称 即 为 
组 的 名 称 , 枚 举 类 型 的 字段 就 是 计数 器 名 称 。 计 数 器 是 全 局 的 。 换 言 之 , MapReduce 框架 
将 跨 所 有 map 和 reduce 聚集 这 些 计数 器 ,并 在 作业 结束 时 产生 一 个 最 终结 果 。 

1. 动态 计数 器 

鉴于 Hadoop 需 先 将 Java 枚 举 类 型 转变 成 String 类 型 ,再 通过 RPC 发 送 计 数 器 值 。 
使 用 枚 举 类 型 和 String 类 型 这 两 种 创建 和 访问 计数 器 的 方法 事实 上 是 等 价 的 。 相 比 之 下 ， 
枚 举 类 型 易于 使 用 ,还 提供 类 型 安全 ,适合 大 多 数 作业 使 用 。 如 果 某 些 特定 场合 需要 动态 创 
建 计 数 器 ,可 以 使 用 String 接口 。 

2. 易 读 的 计数 器 名 称 

计数 器 的 默认 名 称 是 枚 举 类 型 的 Java 完全 限定 类 名 。 由 于 这 种 名 称 在 Web 界面 和 终 
端 上 可 读 性 较 差 , 因 此 Hadoop 又 提供 了 另 一 种 方法 (即使 用 “资源 捆绑 ”(resource 
bundle) ) 来 修改 计数 器 的 显示 名 称 。 对 于 动态 计数 器 而 言 , 组 名 称 和 计数 器 名 称 也 用 作 显 
示 名 称 , 因 而 通常 不 存在 这 个 问题 。 

为 计数 器 提供 易 读 名 称 也 很 容易 。 以 Java 枚 举 类 型 为 名 创建 一 个 属性 文件 ,用 下 划 
线 (_) 分 隔 艇 套 类 型 。 属 性 文件 与 包含 该 枚 举 类 型 的 顶级 类 放 在 同一 目录 中 。 

属性 文件 只 有 一 个 CounterGroupName 属性 ,其 值 便 是 整个 组 的 显示 名 称 。 在 枚 举 类 
型 中 定义 的 每 个 字段 均 与 一 个 属性 对 应 ,属性 名 称 是 “字段 名 称 . name”, 属 性 值 是 该 计数 器 
的 显示 名 称 。 

属性 文件 MaxTemperature WithCounters_Temperature. properties 的 内 容 如 下 : 


CounterGroupName= Air Temperature Records 
MISSING.name=Missing 
MALFORMED .name=Malformed 


Hadoop 使 用 标准 的 Java 本 地 化 机 制 将 正确 的 属性 文件 载 入 到 当前 运行 区 域 。 例 如 ， 
新 建 一 个 名 为 MaxTemperatureWith Counters_Temperature_zh_CN. properties 的 中 文 属 
性 中 ,在 zh-CN 区 域 运行 时 ,就 会 使 用 这 个 属性 文件 。 详 情 请 参见 java. util. 
PropertyResourceBundle 类 的 相关 文档 。 

3. 获取 计数 器 

除了 通过 Web 界面 和 命令 行 (执行 hadoop job -counter 指令 ) 之 外 ,用 户 还 可 以 使 用 
Java API 获 取 计 数 器 的 值 。 通 常情 况 下 ,用 户 一 般 在 作业 运行 完成 .计数 器 的 值 已 经 稳定 
下 来 时 再 获取 计数 器 的 值 , 而 Java API 还 支持 在 作业 运行 期 间 就 能 够 获取 计数 器 的 值 。 
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“数据 去 重 主 要 是 为 了 掌握 和 利用 并 行 化 思想 来 对 数据 进行 有 意义 的 筛选 。 统 计 大 数 
据 集 上 的 数据 种 类 个 数 、 从 网 站 日 志 中 计算 访问 地 等 这 些 看 似 复杂 的 任务 都 会 涉及 数据 去 
重 。 下 面 就 进入 这 个 实例 的 MapReduce 程序 设计 。 


10.2.1 实例 描述 


对 数据 文件 中 的 数据 进行 去 重 。 数 据 文件 中 的 每 行 都 是 一 个 数据 。 输 入 数据 为 搜狗 
500W ,字段 依次 为 : 访问 时 间 ,用户 ID 搜索 关键 词 .结果 排序 ,点击 次 数 . 用 户 最 后 点 击 的 
URL。 在 这 里 ,我 们 对 提取 用 户 ID 字段 进行 去 重 。 样 例 输入 如 下 所 示 : 


20111230004309 fbc524dba4cd34cd21506ae4049827b4 AKER 
20111230004309 ec4f2426d4a96b4e3a2614206367187e AWZ 
20111230004309 c9ba@9fbcel4cace7a5b8d39f496c091 。 mv 下 载 2 


http://www. jiute.us/ 

http: //www.gf0826.com/styTe.asp 
hetp: / vt .mvmatrix.com/ 
1 http://www. jcard.cn/ 
http://news.sina.com.cn/ 
http://www. sodu.org/mulu_568621.htmL 
2 http://avbobo.com/thread_277.html 
http://www. youku.com/ 


20111230004319 090311d0fb2318c376dfacB9606719c www. jcard.cn 
20111230004310 dcb34673e7dcf6d34ebd4c438ef24c97 MM 2 
20111230004310 de5f8575678fe9c070ce39757ble78e4 MHS 
20111230004311 92aef2036ebef7755167056335e237b9 USM 
20111230004312 d546692342a125db03f2a42313af087b 优酷 
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10.2.2 设计 思路 


数据 去 重 的 最 终 目 标 是 让 原始 数据 中 出 现 次 数 超过 一 次 的 数据 在 输出 文件 中 只 出 现 一 
次 。 我 们 自然 而 然 会 想到 将 同一 个 数据 的 所 有 记录 都 交 给 一 台 reduce 机 器 ,无 论 这 个 数据 
出 现 多 少 次 ,只 要 在 最 终结 果 中 输出 一 次 就 可 以 了 。 有 具体 就 是 reduce 的 输入 应 该 以 数据 作 
为 key, 而 对 value-list 则 没有 要 求 。 当 reduce 接收 到 一 个 过 key,value-list 二 时 ,就 直接 将 
key 复制 到 输出 的 key 中 ,并 将 value 设置 成 空 值 。 

在 MapReduce 流程 中 , map AY fifi tli < key, value 二 经 过 shuffle 过 程 聚 集成 二 key， 
value-list 二 后 会 交 给 reduce。 所 以 从 设计 好 的 reduce 输入 可 以 反 推 出 map 的 输出 key 应 
为 数据 ,value 为 任意 值 。 继 续 反 推 ,map 输出 数据 的 key 为 数据 ,而 在 这 个 实例 中 每 个 数据 
代表 输入 文件 中 的 一 行内 容 , 所 以 map 阶段 要 完成 的 任务 就 是 在 采用 Hadoop 默认 的 作业 
输入 方式 之 后 ,将 value 设置 为 key, 并 直接 输出 (输出 中 的 value 任意 )。map 中 的 结果 经 
过 shuffle 过 程 之 后 交 给 reduce. reduce 阶段 不 会 管 每 个 key 有 多 少 个 value, 它 直接 将 输 
入 的 key 复制 为 输出 的 key, 再 输出 就 可 以 了 (输出 中 的 value 被 设置 成 空 了 ) 。 


10.2.3 程序 代码 


public class Filter { 
private static final String INPUT PAHT= "hdfs://master:9000/sogou/20111230"; 
private static final String OUTPUT PATH= "hdfs://master:9000/filter"; 
public static void main(String[] args) throws Exception { 
Configuration conf=new Configuration (); 
Job job= new Job (conf, DataFilter.class.getSimpleName ()) ; 
FileSystem fileSystem=FileSystem.get (URI.create (OUTPUT PATH), conf); 
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if (fileSystem.exists (new Path (OUTPUT PATH))){ 
fileSystem.delete (new Path (OUTPUT_PATH) ); 
} 
FileInputFormat.setInputPaths (job, new Path (INPUT_PAHT)) ; 
job.setJarByClass (DataFilter.class) ; 
job. setMapperClass (MyMap.class) ; 
job. setReducerClass (MyReduce.class) ; 
job. setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (NullWritable.class) ; 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH) ); 
job.waitForCompletion (true); 
} 
public static class MyMap extends Mapper< Longjiiritable, Text, Text, NullWritable> { 
private Text newKey=new Text (); 
protected void map (LongWritable key, Text value,Mapper< LongWritable, 
Text, Text,NullWritable> .Context context) throws java.io.IOException, 
InterruptedException { 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
newKey.set (arr[1]); 
context .write (newKey, NullWritable.get ()); 
i 
} 
public static class MyReduce extends Reducer< Text, NullWritable, Text, NullWritable> { 
protected void reduce (Text k2, Iterable< NullWritable> v2s,Context context) 
throws java.io.IOException ,InterruptedException{ 
context .write (k2,NullWritable.get () ); 


} 
程序 运行 结果 如 下 (部 分 结果 ) : 


32a044d1d17532f fa9be347859bf87c5 
32a05865c2706047699dda78777af651 
32a063f006e0051a3a37e5f2cee7b1f1 
32a081480a5dd4f099152c39cabda389 
32a084be4b474f cabOee2e7d4015c6c3 
32a08d29b8b9547b5c9341e5a91fd5d7 
32a0a9c5d77b2a1fbd0883ada3ed0090 
32a0ac6a92f31bbb48610a88eef2e20d 
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“数据 排序 ?是 许多 实际 任务 执行 时 要 完成 的 第 一 项 工作 ,例如 学 生成 绩 评 比 ,数据 建立 
索引 等 。 这 个 实例 和 数据 去 重 类 似 ,都 是 先 对 原始 数据 进行 初步 处 理 , 为 进一步 的 数据 操作 
打 好 基础 。 下 面 进入 这 个 实例 。 


10.3.1 实例 描述 


对 输入 文件 中 数据 进行 排序 。 输 入 数据 为 搜狗 500W, 字 段 依次 为 : 访问 时 间 、 用 户 
ID WRK EI) .结果 排序 点击 次 数 、 用 户 最 后 点 击 的 URL。 在 这 里 ,我 们 提取 点 击 次 数 进 
行 排序 。 样 例 输入 如 下 所 示 : 


201112309004309 fbc524dba4cd34cd21596ae4949827b4 人 体 艺术 8 4 http://www. jiute.us/ 
20111230004309 ec4f2426d4a96b4e3a2614206367187e 人 体 亿 术 6 3 http://www. gf@826.com/style.asp 
20111230004309 c9bae9fbcel4cace7a5b8d39F496c091 mv 下 载 2 2  http://ww.mvmatrix.com/ 

20111230004310 a890311d0fb2318c376dfac89606719C ww.jcard.cn 1 1 http://www. jcard.cn/ 
20111230004310 dcb34673e7dcf6d34ebd4c438ef24c97 新 闻 2 2 http://news.sina.com.cn/ 

20111230004319 de5f8575678fe9c070ce39757b1e78e4 eM 5 2 http://www. sodu.org/mulu_568621.htmL 
20111230004311 92aef2036ebef7755167056335e237b9 AUSM 1 2 http: //avbobo.com/thread_277.html 
20111230004312 546692342a125dbe3f2a42313afe87b 优酷 1 1 http://www. youku.com/ 


10.3.2 设计 思路 


这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ,熟悉 MapReduce 过 程 的 读者 会 很 快 想到 在 
MapReduce 过 程 中 就 有 排序 ,是 否 可 以 利用 这 个 默认 的 排序 ,而 不 需要 自己 再 实现 具体 的 
排序 呢 ? 答案 是 肯定 的 。 

但 是 在 使 用 之 前 ,首先 需要 了 解 它 的 默认 排序 规则 。 它 是 按照 key 值 进行 排序 的 ,如 果 
key 为 封装 int 的 IntWritable 类 型 ,那么 MapReduce 按照 数字 大 小 对 key 排序 ,如 果 key 
为 封装 为 String 的 Text 类 型 ,那么 MapReduce 按照 字典 顺序 对 字符 串 排序 。 

了 解 了 这 个 细节 ,我 们 就 知道 应 该 使 用 封装 int 的 IntWritable 型 数据 结构 了 。 也 就 是 
在 map 中 将 读 入 的 数据 转化 成 IntWritable 型 ,然后 作为 key 值 输出 (value 任意 ) 。reduce 
拿 到 一 key,value-list 二 之 后 ,将 输入 的 key 作为 value 输出 ,并 根据 value-list 中 元 素 的 个 数 
决定 输出 的 次 数 。 但 是 ,为 了 能 直观 地 看 出 数据 有 哪些 ,就 对 数据 做 了 去 重 后 再 输出 。 需 要 
注意 的 是 这 个 程序 中 没有 配置 Combiner, 也 就 是 在 MapReduce 过 程 中 不 使 用 Combiner, 
这 主要 是 因为 使 用 map 和 reduce 就 已 经 能 够 完成 任务 了 。 


10.3.3 程序 代码 


public class DataSort { 

Private static final String INPUT PATH= "hdfs://master:9000/sogou/20111230"; 
private static final String OUTPUT PATH= "hdfs://master:9000/sortdata"; 
public static void main(String[] args) throws Exception { 

Configuration configuration= new Configuration (); 

@ SuppressWarnings ("deprecation") 

Job job= new Job (configuration, "NumSort") ; 

FileSystem fileSystem=FileSystem.get (URI.create (OUTPUT_ PATH), configuration); 

if (£ileSystem.exists (new Path (OUTPUT PATH) ) ) { 

fileSystem.delete (new Path (OUTPUT_PATH) ) ; 
j 


FileInputFormat.setInputPaths (job, new Path (INPUT_PATH) ) ; 
job.setMapperClass (MyMap.class) ; 
job.setMapOutputKeyClass (IntWritable.class) ; 
job.setMapOutputValueClass (NullWritable.class) ; 


job.setReducerClass (MyReduce.class) ; 

job. setOutputKeyClass (IntWritable.class) ; 
job.setOutputValueClass (NullWritable.class) ; 
FileOutputFommat .setOutputPath (job, new Path (OUTPUT PATH)); 


jjob.waitForCompletion (true); 


public static class MyMap extends Mapper< LongWritable, Text, IntWritable, NullWritable> { 
private Text newKey= new Text (); 
protected void map (LongWritable key, Text value, Context context) 
throws java.io.IOException , InterruptedException { 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
newKey.set (arr[4]); 
context.write (new IntWritable (Integer. parseInt (newKey. toString ( ))), 
NullWritable.get ()); 
Ge 
} 
public static class MyReduce extends Reducer< IntWritable, NullWritable, IntWritable, 
NullWritable> { 
protected void reduce (IntWritable k2, Iterable< NullWritable> v2s, Context context) 
throws java.io.IOException ,InterruptedException { 
context .write (k2,NullWritable.get ()); 
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10.4 二 次 排序 
二 次 排序 就 是 首先 按照 第 一 字段 排序 ,然后 再 对 第 一 字段 相同 的 行 按照 第 二 字段 排序 ， 
注意 不 能 破坏 第 一 次 排序 的 结果 。 


10.4.1 二 次 排序 原理 


在 map 阶段 ,使 用 job. setInputFormatClass 定义 的 InputFormat 将 输入 的 数据 集 分 割 
成 小 数据 块 splites, 同 时 InputFormat 提供 一 个 RecordReder 的 实现 。 本 例 中 使 用 的 是 


i, oe 


TextInputFormat, 它 提供 的 RecordReder 会 将 文本 的 一 行 的 行 号 作为 key, 这 一 行 的 文本 
作为 value。 这 就 是 自 定义 Map 的 输入 是 二 LongWritable,Text 二 的 原因 。 然 后 调用 自 定 
X Map 的 map 方法 ,将 一 个 个 “二 LongWritable,Text 二 对 ”输入 给 Map 的 map Wik. TE 
意 输出 应 该 符合 自 定义 Map 中 定义 的 输出 过 IntPair,IntWritable 之 。 最 终 是 生成 一 个 List 
<IntPair,IntWritable>. E map 阶段 的 最 后 ,会 先 调用 “job. setPartitionerClass 对 ”这 个 
List 进行 分 区 ,每 个 分 区 映射 到 一 个 reducer。 每 个 分 区 内 又 调用 job. 
setSortComparatorClass 设置 的 key 比较 函数 类 排序 。 可 以 看 到 ,这 本 身 就 是 一 个 二 次 排 
序 。 如 果 没 有 通过 job. setSortComparatorClass 设置 key 比较 函数 类 , 则 使 用 key 的 实现 的 
compareTo 方法 。 在 本 例 中 ,使 用 了 IntPair 实现 的 compareTo 方法 。 

在 reduce 阶段 ,reducer 接收 到 所 有 映射 到 这 个 reducer 的 map 输出 后 ,也 是 会 调用 
job. setSortComparatorClass 设置 的 key 比较 函数 类 对 所 有 数据 对 排序 。 然 后 开始 构造 一 
个 key 对 应 的 value 迭代 器 。 这 时 就 要 用 到 分 组 ,使 用 jobjob. setGroupingComparatorClass 
设置 的 分 组 函数 类 。 只 要 这 个 比较 器 比较 的 两 个 key 相同 ,它们 就 属于 同一 个 组 ,它们 的 
value 放 在 一 个 value 迭代 器 中 ,而 这 个 迭代 器 的 key 使 用 属于 同一 个 组 的 所 有 key 的 第 一 
个 key。 最 后 就 是 进入 Reducer 的 reduce 方法 ,reduce 方法 的 输入 是 所 有 的 (key 和 它 的 
value 迭代 器 )。 同 样 注意 输入 与 输出 的 类 型 必须 与 自 定义 的 Reducer 中 声明 的 一 致 。 
10.4.2 二 次 排序 的 算法 流程 

1. 自 定 义 key 

在 MapReduce 中 ,所 有 的 key 是 需要 被 比较 和 排序 的 ,并 且 是 要 进行 两 次 。 先 根据 
partitione, 再 根据 大 小 。 而 本 例 中 也 是 要 比较 两 次 。 先 按照 第 一 字段 排序 ,然后 再 对 第 一 
字段 相同 的 按照 第 二 字段 排序 。 根 据 这 一 点 ,可 以 构造 一 个 复合 类 NewKey2。Newkey2 
有 两 个 字段 , 先 利 用 分 区 对 第 一 字段 排序 ,再 利用 分 区 内 的 比较 对 第 二 字段 排序 。 

所 有 自 定 义 的 key 应 该 实现 接口 WritableComparable, 因 为 是 可 序列 化 的 且 可 比较 的 ， 
HERTE. 

另外 ,新 定义 的 类 应 该 重 写 的 两 个 方法 如 下 : 


public int hashCode () 
public boolean equals (Object right) 


2. 自 定义 类 

由 于 key 是 自 定义 的 ,所 以 还 需要 自 定义 类 。 

(1) 分 区 函数 类 。 这 是 key 的 第 一 次 比较 。 

public static class HashPartitioner extends Partitioner< NewKey2,IntWritable> 


在 job 中 设置 使 用 setPartitionerClasss 。 
(2) key 比较 函数 类 。 这 是 key 的 第 二 次 比较 ,是 一 个 比较 器 ,需要 继承 实现 接口 
WritableComparable。 


static class NewKey2 implements Writa bleComparable< NewKey2> 
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必须 有 一 个 构造 函数 ,并 且 重 载 public int compare( NewKey2 ol, NewKey2 02). 
G) 分 组 函数 类 。 在 reduce 阶段 ,构造 一 个 key 对 应 的 value 迭代 器 时 ,只 要 first 相同 就 
属于 同一 个 组 , 放 在 一 个 value 迭代 器 。 这 是 一 个 比较 器 ,需要 实现 接口 RawComparator。 


static class MyGroupComparator implements Raw Comparator< NewKey2> 


同 key 比较 函数 类 ,必须 有 一 个 构造 函数 ,并 且 重 载 public int compare( NewKey2 ol, 
NewKey2 02)。 在 job 中 设置 使 用 setGroupingComparatorClass。 

另外 应 注意 的 是 ,如 果 reduce 的 输入 与 输出 不 是 同一 种 类 型 , 则 不 要 定义 Combiner 也 
使 用 reduce, 因 为 Combiner 的 输出 是 reduce 的 输入 。 除 非 重 新 定义 一 个 Combiner。 


10.4.3 代码 实现 


原始 数据 : 
uo aa 
330023 
2 12 
3- 3 
n 又 
22 -22 
33 å n 
22 22 
3 12 


对 以 上 两 列 数据 进行 排序 ,要求 : 
(1) 第 一 列 从 小 到 大 升序 排序 ; 
(2) 在 第 一 列 的 数值 相等 的 情况 下 ,第 二 列 数值 按 从 小 到 大 升序 排序 。 


public class DataSortTwo { 
private static final String INPUT_PATH="hdfs://master:9000/data"; 
private static final String OUTPUT_PATH="hdfs://master:9000/sortdatatwo"; 
public static void main(String[] args) throws Exception{ 
// 创 建 配置 对 象 
Configuration conf=new Configuration () ; 
// 创 建 作业 对 象 
Job job= new Job (conf, DataSortTwo.class.getSimpleName () ) ; 


FileSystem fileSystem=FileSystem.get (new URI (INPUT_PATH), conf); 

if (fileSystem.exists (new Path (OUTPUT_PATH))) { 
fileSystem.delete (new Path (OUTPUT_PATH), true); 

} 

// 指定 输入 文件 路 径 

FileInputFormat .set InputPaths (job, INPUT_PATH) ; 

// 指定 哪个 类 用 来 格式 化 输入 文件 

job.setInputFormatClass (Text InputFormat .class) ; 

// 指定 自 定义 的 Mapper 类 

job.setMapperClass (MyMap.class) ; 

// 指定 输出 <k2,v2> 的 类 型 


job.setMapOutputKeyClass (NewKey2.class) ; 
Job. setMapOutputValueClass (LongWritable.class) ; 


job.setPartitionerClass (HashPartitioner.class) ; 
job. setNumReduceTasks (1) ; 
job.setGroupingComparatorClass (MyGroupComparator .class) ; 


job. setReducerClass (MyReduce.class) ; 

job. setoutputKeyClass (LongWritable.class) ; 

job. setOutputValueClass (LongWritable.class) ; 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH)) ; 
job. setOutputFormatClass (TextOutputFormat.class) ; 


// 把 代码 提交 给 JobTracker 执行 
job.waitForCompletion (true ); 
b 
//v2 的 类 型 是 Text 
static int count=0; 
static class MyMap extends Mapper< Longiritable, Text, NewKey2, LongWritable> { 
protected void map(LongWritable key, Text value, org.apache.hadoop.mapreduce .Mapper 
< LongWritable, Text, NewKey2, LongWritable >. Context context) throws java. io. 
IOException , InterruptedException { 
System.out .println (" 输 入 的 kl:"+key+" ,输入 的 v1: "+ value); 
//map 函数 从 hdfs 中 读 取 数据 ,一 行 一 行 读 取 ,key 为 索引 ,value 为 每 次 行 的 内 容 


String [] valueStrings=value.toString().split ("\t"); 

NewKey2 k2 = new NewKey2 (Long. parseLong (valueStrings [0]), Long. parseLong 
(valuestrings[1])); 

LongWritable v2=new LongWritable (Long.parseLong (valueStrings[1])); 

context .write (k2, v2); 

System.out .println (" 输 出 的 k2:"+k2.first+" ,输出 的 v2:"+v2+"\n"); 


} 
static class MyReduce extends Reducer< NewKey2, LongWritable, LongWritable, LongWritable 
>{ 
private final IntWritable first=new IntWritable(); 
protected void reduce (NewKey2 k2, Iterable< LongWritable>v2s,Context context) 
throws java.io.IOException , InterruptedException { 
long max=Long.MIN_VALUE; 
for (LongWritable v2 : v2s) { 
if (v2.get ()>max) { 
max=v2.get (); 
context .write (new LongWritable (k2.first), new LongWritable (max) ); 


} 
static class NewKey2 implements WritableComparable< NewKey2> { 
Long first; 


Long second; 


public NewKey2() {} 
public NewKey2 (Long first, Long second) { 


} 


this.first=first; 
this.second= second; 


@ Override 
public void write (DataOutput out) throws IOException { 


} 


out.writeLong (first); 
out.writeLong (second) ; 


@Override 
public void readFields (DataInput in) throws IOException { 


} 


this.first=in.readLong(); 

this.second= in. readLong () ; 

System.out .println ("这 是 readFields() 方 法 !first:"+ this.first+",second"+ this. 
second) ; 


@ Override 
public int compareTo (NewKey2 o) { 


long minus=this.first-o.first; 
if (this.first !=o.first) { 
return (int)minus; 
} else if (this.second !=o.second) { 
return (int) (this.second-o.second) ; 
} else { 
return 0; 


static class MyGroupComparator implements RawComparator< NewKey2> { 


@ Override 
public int compare (NewKey2 ol, NewKey2 02) { 
System. out. print1n ("MyGroupComparator 类 中 的 compare (NewKey2 ol, NewKey2 
02) 方 法 "); 
return (int) (ol.first-02.first); 
} 
//arg0 表示 第 一 个 参与 比较 的 字 节 数组 
//argl 表示 第 一 个 参与 比较 的 字 节 数组 的 起 始 位 置 
//arg2 表示 第 一 个 参与 比较 的 字 节 数组 的 偏 移 量 
//arg3 表示 第 二 个 参与 比较 的 字 节 数组 
//arg4 表示 第 二 个 参与 比较 的 字 节 数组 的 起 始 位 置 
//arg5 表示 第 二 个 参与 比较 的 字 节 数组 的 偏 移 量 
@ Override 
public int compare (byte[] bl, int sl, int 11, byte[] b2, int s2, int 12) { 
System. out .print1n ("MyGroupComparator 类 中 的 compare (byte[] bl, int s1, int 
11, byte[] b2, int s2, int 12) 方 法 "); 
System.out.print1n (bl. length+ "\t"+ s1+"\t"+b2.length+ "\t"+ s2) ; 
return WritableComparator.compareBytes (bl, sl, 8, b2, s2, 8); 


105 平 均值 


使 用 “平均 成 绩 ” 作 为 实例 的 主要 目的 还 是 在 重 温 经 典 的 WordCount 例子 ,可 以 说 是 在 
基础 上 的 微 变化 版 ,本 实例 主要 就 是 实现 一 个 计算 学 生平 均 成 绩 的 例子 。 


10.5.1 实例 描述 


对 输入 文件 中 数据 计算 学 生平 均 成 绩 。 输 入 文件 中 的 每 行内 容 均 为 一 个 学 生 的 姓名 和 
他 相应 的 成 绩 。 其 中 ,第 一 个 代表 学 生 的 姓名 ,第 二 个 代表 其 不 同学 科 的 成 绩 。 


样本 输入 如 下 : 
三 88 

李 四 

王 五 66 

BA 77 
三 78 

李 四 89 

ER 96 

赵 六 67 

k= 80 

李 四 82 

ER 84 

赵 六 86 

10.5.2 设计 思路 


计算 学 生 的 平均 成 绩 是 一 个 仿 WordCount 例子 ,用 来 重 温 一 下 开发 MapReduce 程序 
的 流程 。 程 序 包 括 两 部 分 的 内 容 : Map 部 分 和 Reduce 部 分 .分别 实现 了 map 和 reduce 的 
功能 。 

Map 处 理 的 是 一 个 纯 文本 文件 。 文件 中 存放 的 数据 的 时 每 一 行 表 示 一 个 学 生 的 姓名 
和 他 相应 的 学 科 成 绩 。Mapper 处 理 的 数据 是 由 InputFormat 分 解 过 的 数据 集 , 其 中 
InputFormat 的 作用 是 将 数据 集 切 割 成 小 数据 集 InputSplit, 每 一 个 InputSlit 将 由 一 个 
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Mapper 负责 处 理 。 此 外 ,InputFormat 中 还 提供 了 一 个 RecordReader 的 实现 ,并 将 一 个 
InputSplit 解析 成 二 key, value > X} Hè (t if T map 函数 。InputFormat 的 默认 值 是 
TextInputFormat, 它 针对 文本 文件 , 按 行将 文本 切割 成 InputSlit, 并 用 LineRecordReader 
将 InputSplit 解析 成 二 key .value 二 对 ,key 是 行 在 文本 中 的 位 置 ,value 是 文件 中 的 一 行 。 

Map 的 结果 会 通过 partion 分 发 到 Reducer, Reducer 做 完 Reduce 操作 后 ,将 以 格式 
OutputFormat 输出 。 

Mapper 最 终 处 理 的 结果 即 “ 二 key,value 二 对 ”会 送 到 Reducer 中 进行 合并 。 合 并 时 ， 
有 相同 key 的 “ 键 / 值 对 ” 则 送 到 同一 个 Reducer 上 。Reducer 是 所 有 用 户 定制 Reducer 类 的 
基础 , 它 的 输入 是 key 和 这 个 key 对 应 的 所 有 value 的 一 个 迭代 器 ,同时 还 有 Reducer 的 上 
Fx. Reduce 的 结果 由 Reducer. Context 的 write 方法 输出 到 文件 中 。 


10.5.3 程序 代码 


public class AvgScore { 
private static final String INPUT_PATH="hdfs://master:9000/scoredata"; 
private static final String OUTPUT_PATH="hdfs://master:9000/avgscore"; 
public static void main (String[] args) throws Exception { 
Configuration conf=new Configuration (); 
@ SuppressWarnings ("deprecation") 
Job job= new Job (conf, AvgScore.class.getSimpleName () ) ; 
FileSystem fileSystem=FileSystem.get (URI.create (OUTPUT_PATH), conf); 
if (fileSystem.exists (new Path (OUTPUT_PATH) )) { 
fileSystem.delete (new Path (OUTPUT_PATH) ) ; 
} 
FileInputFormat .setInputPaths (job,new Path (INPUT_PATH) ) 
job.setMapperClass (MyMap.class) ; 
job.setMapOutputKeyClass (Text.class) ; 
job.setMapOutputValueClass (IntWritable.class) ; 
job.setReducerClass (MyReduce.class) ; 
job.setOutputKeyClass (Text .class) ; 
job.setOutputValueClass (DoubleWritable.class) ; 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH) ); 
job.waitForCompletion (true) ; 
} 
public static class MyMap extends Mapper< LongWritable, Text, Text, IntWritable> { 
protected void map (LongWritable key, Text value, Mapper < LongWritable, Text, Text, 
IntWritable> .Context context) throws java.io. IOException , 
InterruptedException { 
String[] split=value.toString().split ("\t"); 
String name= split [0]; 
int score=Integer.parseInt (split [1]); 
context .write (new Text (name), new IntWritable (score) ); 
le 
} 
publicstatic class MyReduce extends Reducer< Text, IntWritable, Text, DoubleWritable> { 
protected void reduce (Text k2, Iterable< IntWritable>v2s, 
Reducer< Text, IntWritable, Text, DoubleWritable> .Context context) 
throws java.io.I0Exception ,InterruptedException { 


大 数据 
a 
double sum= 0; 
long count=0; 
for (IntWritable score : v2s) { 
sum= sumt score.get () ; 
count++; 
} 
double avg= sum/count; 
context .write (k2, new DoubleWritable (avg) ); 
le 
} 
} 
程序 运行 结果 如 下 
= 82.0 
= 90.0 
王 五 82 


赵 六 76.66666666666667 


10.6 Join 联 接 


MapReduce 能 够 执行 大 型 数据 集 间 的 “联接 ”(join) 操 作 , 但 是 自己 从 头 编写 相关 代码 
来 执行 联接 的 确 非常 棘手 。 除 了 写 MapReduce 程序 ,还 可 以 考虑 采用 一 个 更 高 级 的 框架 ， 
如 Pig、Hive 或 Cascading 等 ,它们 都 将 联接 操作 视 为 整个 实现 的 核心 部 分 。 

联接 操作 的 具体 实现 技术 取决 于 数据 集 的 规模 及 分 区 方式 。 如 果 一 个 数据 集 很 大 ( 例 
如 天 气 记 录 ) ,而 另外 一 个 集合 很 小 ,以 至 于 可 以 分 发 到 集群 中 的 每 一 个 节点 之 中 (例如 气象 
站 元 数据 ), 则 可 以 执行 一 个 MapReduce 作业 ,将 各 个 气象 站 的 天 气 记录 放 到 一 起 (例如 , 根 
据 气象 站 ID 执行 部 分 排序 ) ,从 而 实现 联接 。mapper 或 reducer 根据 各 气象 站 ID 从 较 小 
的 数据 集合 中 找到 气象 站 元 数据 ,使 元 数据 能 够 被 写 到 各 条 记录 之 中 。 

联接 操作 如 果 由 mapper 执行 , 则 称 为 “map 端 联接 ”; 如 果 由 reducer 执行 , 则 称 为 
“reduce 端 联接 ”。 

如 果 两 个 数据 集 的 规模 均 很 大 ,以 至 于 没有 哪个 数据 集 可 以 被 完全 复制 到 集群 的 每 个 
节点 ,仍然 可 以 使 用 MapReduce 来 进行 联接 。 至 于 到 底 采 用 map 端 联接 还 是 reduce 端 联 
接 , 则 取决 于 数据 的 组 织 方式 。 最 常见 的 一 个 例子 便 是 用 户 数据 库 和 用 户 活 动 日 志 ( 例 如 访 
问 日 志 )。 对 于 一 个 热门 服务 来 说 ,将 用 户 数据 库 ( 或 日 志 ) 数 据 库 分 发 到 所 有 MapReduce 
节点 中 是 行 不 通 的 。 


10.6.1 Map 端 Join 


在 两 个 大 规模 输入 数据 集 之 间 的 map 端 联接 会 在 数据 到 达 map 函数 之 前 就 执行 
联接 操作 。 为 达到 该 目的 ,各 map 的 输入 数据 必须 先 分 区 并 且 以 特定 方式 排序 。 各 个 
输入 数据 集 被 划分 成 相同 数量 的 分 区 ,并 且 均 按 相 同 的 键 排序 (联接 键 ) 。 同 一 键 的 所 
有 记录 均 会 放 在 同一 分 区 之 中 。 听 起 来 似乎 要 求 非常 严格 ,但 这 的 确 合乎 MapReduce 
作业 的 输出 。 


Map 端 联接 操作 可 以 联接 多 个 作业 的 输出 ,只 要 这 些 作 业 的 reducer 数量 相同 , 键 相 
同 、 并 且 输 出 文件 是 不 可 切 分 的 (例如 ,小 于 一 个 HDFS 块 ,或 gzip 压缩 )。 在 天 气 的 例子 
中 ,如 果 气 象 站 文件 以 气象 站 ID 排序 ,记录 文件 也 以 气象 站 ID 排序 ,而 且 reducer 的 数量 
相同 , 则 它们 就 满足 了 执行 map 端 联接 的 前 提 条 件 。 

利用 org. apache. hadoop. mapred. join 包 中 的 CompositeInputFormat 类 来 运行 一 个 
map 端 联接 。CompositeInputFormat 类 的 输入 源 和 联接 类 型 (内 联接 或 外 联接 ) 可 以 通过 
一 个 联接 表达 式 进行 配置 ,联接 表达 式 的 语法 较为 简单 。org. apache. hadoop. examples. 
Join 是 一 个 通用 的 执行 map 端 联接 的 命令 行程 序 。 该 例 运行 一 个 基于 多 个 输入 数据 集 的 
mapper 和 reducer 的 MapReduce 作业 ,以 执行 给 定 的 操作 。 


10.6.2 Reduce 端 Join 


由 于 reduce 端 联接 并 不 要 求 输 入 数据 集 符合 特定 结构 ,因而 reduce 端 联接 比 map 端 
联接 更 为 常用 。 但 是 ,由 于 两 个 数据 集 均 需 经 过 MapReduce 的 shuffle 过 程 ,所 以 reduce 
端 联接 的 效率 往往 要 低 一 些 。 基 本 思路 是 mapper 为 各 个 记录 标记 源 , 并 且 使 用 联接 键 作 
为 map 输出 键 ,使 键 相同 的 记录 放 在 同一 个 reducer 中 。 以 下 技术 能 帮助 实现 reduce 端 联 
接 。 数 据 集 的 输入 源 往 往 有 多 种 格式 ,因此 可 以 使 用 Multiplelnputs 类 。 


10.6.3 Join 实现 表 关 联 


实现 含 仙剑 奇 侠 传 的 UID 都 搜索 过 哪些 关键 字 。 
(1) 确认 实现 含 仙 剑 奇 侠 传 的 UID 有 哪些 。 


public class SplitMapper extends Mapper< Object, Text, Text, NullWritable>{ 
private Text uidText=new Text (); 
protected void map (Object key, Text value, Context context) 
throws java.io.IOException, InterruptedException { 
String lineString=value.toString(); 
String[] arr=lineString.split ("\t"); 
if (null !=arr && arr.length==6) { 
String keyword=arr[2]; 
// condition 
if (keyword. indexof ("仙剑 奇 侠 传 ") >=0) { 
uidText.set (arr[1]);//uid 
context .write (uidText,NullWritable.get ()); 


Ye 
} 
public class UuidReducer extends Reducer< Text, NullWritable, Text, NullWritable> { 
protected void reduce (Text key, 
Iterable< NullWritable> values, 
Context context) 
throws java.io. IOException , 
InterruptedException { 
context .write (key, NullWritable.get ()); 


public class XianjianMain { 
public static void main (String [ ] args) throws IOException, ClassNotFoundException, 
InterruptedException { 
if(null==args||args.length !=2){ 
System.err.println("<Usage> : XianjianMain < input><output>"); 
System.exit (-1); 


} 


} 

Job job= new Job (new Configuration (),"XianJian") ; 
job. setJarByClass (XianjianMain.class) ; 

job. setMapperClass (SplitMapper.class) ; 
job.setReducerClass (UuidReducer.class) ; 

job. setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (NullWritable.class) ; 

job. setNumReduceTasks (1) ; 
FileInputFormat.addInputPath (job,new Path (args[0])); 
FileOutputFormat .setOutput Path (job, new Path (args [1])); 
4job.waitForCompletion (true) ; 


程序 运行 结果 如 下 (部 分 结果 ) : 


3b4b307b4db3b533316fe3828d1de493 
3b4b37773cfc140e3a2215f07ee0d38d 
3b4b38f397ad55a42acb90fa625fbf26 
3b4b3ef479889dd666cdd07859344b21 
3b4b4caf97cc8b976519b93881b9de85 
3b4b5838244c93518f4fa488d66ef4f5 
3b4b5bfa363ccbafb7185f658afd7863 
3b4b5e80f06d20634caf46a6c290b143 
3b4b5f177530b8c09d4bee67 ladba305 


(2) 确认 实现 含 仙剑 奇 侠 传 的 UID 都 搜索 过 哪些 关键 字 。 


public class UuidMapper extends Mapper< Object, Text, Text, Text>{ 


//label 
public static final String LABLE="U_"; 
private Text newValue=new Text (); 
/* 
* key: offset (1,100,1203) 
* value: uid (57375476989eea12893c0c3811607bcf) 
* @ see org. apache. hadoop. mapreduce. Mapper # map (KEYIN, VALUEIN, org. apache. hadoop. 
mapreduce .Mapper .Context) 
*/ 
protected void map (Object key, Text value,Context context) 
throws java.io. IOException , InterruptedException { 
String uidString=value.toString(); 
newValue.set (LABLE + uidString) ; 
/* 


* value: 57375476989eea12893c0c3811607bcf 
* newValue: U _57375476989eea12893c0c3811607bcf 
*/ 

context .write (value, newValue); 


} 
public class WholeFileMapper extends Mapper< Object, Text, Text, Text>{ 
//label 
public static final String LABEL="W_"; 
private Text uidText=new Text () 7 
private Text newValue=new Text (); 
ri * 
* key: offset 
* value: 20111230000005 57375476989eea12893c0c3811607bcf 奇 艺 高 清 1 1 http://www. 
qiyi.com/ 
* @ see org. apache. hadoop. mapreduce. Mapper # map (KEYIN, VALUEIN, org. apache. hadoop. 
mapreduce .Mapper .Context) 
*/ 
protected void map (Object key, Text value, Context context) 
throws java.io. IOException, InterruptedException { 
String lineString=value.toString(); 
String[] arr=lineString.split ("\t"); 
if (null !=arr && arr.length==6) { 
//label I 
String uidString=arr[1]; 
uidText .set (uidString) ; l 
newValue.set (LABEL + lineString) ; 
/* 
* uidText :57375476989eea12893c0c3811607bcf 
* newValue: W_20111230000005 57375476989eea12893c0c3811607bcf 奇 艺 高 清 1 1 
http://www.qiyi.com/ 
*/ 
context .write (uidText, newValue); 


$ 
public class JoinReducer extends Reducer< Text, Text, Text, Text>{ 
/* 
# key:57375476989eea12893c0c3811607bcf 
* values: {W_20111230000005 57375476989eea12893c0c3811607bcf 奇 艺 高 清 1 1 http:// 
www.qiyi.com/, U_57375476989eea12893c0c3811607bcf} 
* @ see org. apache. hadoop.mapreduce. Reducer # reduce (KEYIN, java. lang.Iterable, org. 
apache .hadoop.mapreduce .Reducer .Context) 
*/ 
protected void reduce (Text key, Iterable< Text> values, Context context) 
throws java.io. IOException, InterruptedException { 
String uid=null; 
String line=null; 


List< String> list=new ArrayList< String> (); 


ri * 
* values: {W_20111230000005 57375476989eea12893c0c3811607bcf 奇 艺 高 清 1 1 
http://www.qiyi.com/, 
* U_57375476989eea12893c0c3811607bc£} 
* {W_20111230000005 57375476989eea12893c0c3811607bef 奇 艺 高 清 1 1 http:// 
www .qiiyi..com/} 
*/ 


for (Text value : values) { 

if (value.toString () .startsWith (UuidMapper .LABLE) ) { 
/0_ 
uid=value.toString() .substring (2); 

} 

else if(value.toString() .startsWith (WholeFileMapper .LABEL)) { 
I 
line=value.toString () .substring (2) ; 
String[] arr=line.split ("\t"); 
String keyword=arr[2]; 
list.add (keyword) ; 


} 


//judge 
if (null !=uid && list.size()>0){ 
//write (uid, keyword) 


for (String kw : list) { 
context.write (key, new Text (kw)); 


Ve 
} 
public class JoinMain { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException { 
if (null==args||args.length !=3) { 
System.err.print1n("<Usage> : " +"JoinMain <in1><in2><out>"); 
System.exit (- 1); 
} 
Job job= new Job (new Configuration (),"Join"); 
job.setJarByClass (JoinMain.class) ; 
//whole 
MultipleInputs. 


addInputPath (job, new Path (args [0]) ,FileInputFormmat.class,WholeFileMapper.class); 


//uuid 
MultipleInputs. 


addInputPath (job, new Path (args[1]),FileInputFormat .class, UuidMapper.class) ; 


job.setReducerClass (JoinReducer.class) ; 


job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (Text .class) ; 


FileOutputFormat .setOutputPath (job, new Path (args [2])); 
job.waitForCompletion (true) ; 


} 
程序 运行 结果 如 下 (部 分 结果 ) : 


fdabb8fa7a5c8b992d62c9d6d5fae945 qq 仙剑 奇 侠 传 
fdc77edda794e003fb7bee24d5f684a0 纯音 乐 莫 失 莫 忘 
fdc77edda794e003fb7bee24d5f684a0 纯音 乐 莫 失 莫 忘 
fdc77edda794e003fb7bee24d5f684a0 仙剑 奇 侠 传 1 纯音 乐 莫 失 莫 忘 
fdc77edda794e003 fb7bee24d5f684a0 仙剑 奇 侠 传 1 纯音 乐 莫 失 莫 忘 
fdfbb360cab184364a929ba9730b9183 仙剑 奇 侠 传 4 高 清 壁 纸 
fdfbb360cab184364a929ba9730b9183 仙剑 奇 侠 传 4 高 清 壁 纸 
ffceeeec05b370a909e59d00bf94865b 红色 警戒 2 兵临城下 


10.7 倒 排 索 引 


“ 倒 排 索引 ?是 文档 检索 系统 中 最 常用 的 数据 结构 ,被 广泛 地 应 用 于 全 文 搜索 引擎 。 它 
主要 是 用 来 存储 某 个 单词 (或 词组 ) 在 一 个 文档 或 一 组 文档 中 的 存储 位 置 的 映射 , 即 提供 了 
一 种 根据 内 容 来 查找 文档 的 方式 。 由 于 不 是 根据 文档 来 确定 文档 所 包含 的 内 容 , 而 是 进行 
相反 的 操作 ,因而 称 为 倒 排 索引 (Inverted Index) 。 


10.7.1 倒 排 索引 的 分 析 和 设计 


1. 分 析 
通常 情况 下 , 倒 排 索引 由 一 个 单词 (或 词组 ) 以 及 相关 的 文档 列表 组 成 ,文档 列表 中 的 文 
档 或 者 是 标识 文档 的 ID 号 ,或 者 是 指 文档 所 在 位 置 的 URL, 如 图 10-1 所 示 。 


单词 文档 列表 

单词 文档 1 =| 文档 4 =| 文档 13 
单词 2 文档 3 =| 文档 5 =) 文档 15 
单词 3 文档 8 一 文档 8 =| 文档 20 


图 10-1 倒 排 索引 结构 


应 用 中 ,还 需要 给 每 个 文档 添加 一 个 权 值 ,用 来 指出 每 个 文档 与 搜索 内 容 的 相关 度 ,如 
图 10-2 所 示 。 

单词 文档 列表 

单词 1 文档 1 权 | 文档 4 权 一 =| 文档 3 权 


单词 3 | 文档 3 权 c 文档 5 || 权 一 =| 文档 15 || 权 


单词 & | 文档 8 || AL 一 | 文档 8 || 权 一 | 文档 20 || 权 


图 10-2 ”添加 权重 的 倒 排 索引 


最 常用 的 是 使 用 词 频 作为 权重 , 即 记录 单词 在 文档 中 出 现 的 次 数 。 以 英文 为 例 , 如 
图 10-3 所 示 ,索引 文件 中 的 MapReduce 一 行 表示 : MapReduce 这 个 单词 在 文本 To 中 出 现 
过 1 次 ,在 Tl 中 出 现 过 1 次 ,在 T2 中 出现 过 2 次 。 当 搜索 条 件 为 MapReduce is, Simple 
时 ,对 应 的 集合 为 : (TO.T1,T2}M{TO.T1}M{TO.T1}={TO.T1) BC To 和 Tl 包含 
了 所 要 索引 的 单词 ,而 且 只 有 To 是 连续 的 。 

被 索引 文件 索引 文件 

“MapReduce” :{(TO,1);(T1,1);(T2,2)} 
ish: {(T0,1);(T1,2)} 
“simple” :  {(T0,1);(T1,1)} 
“powerful” : {(T1,1)} 
“Hello” : {(T2,1)} 
“bye” : {(T2,1)} 


TO=” MapReduce is simple” 
T1=” MapReduce is powerful is simple” 
T2=” Hello MapReduce bye MapReduce” 


图 10-3 HER S| AN 


更 复杂 的 权重 还 可 能 要 记录 单词 在 多 少 个 文档 中 出 现 过 ,以 实现 TF-IDF ( Term 
Frequency-Inverse Document Frequency) 算 法 ,或 者 考虑 单词 在 文档 中 的 位 置信 息 ( 单 词 是 
否 出 现在 标题 中 ,反映 了 单词 在 文档 中 的 重要 性 ) 等 。 

样 例 输 入 如 下 所 示 。 


(1) filel: 
MapReduce is simple 


(2) file2: 
MapReduce is powerful is simple 


(3) file3: 
Hello MapReduce bye MapReduce 


2. 设计 思路 

实现 * 倒 排 索 引 ? 只 要 关注 单词 .文档 URL 及 词 频 等 信息 。 但 是 在 实现 过 程 中 ,索引 文 
件 的 格式 与 图 10-3 会 略 有 所 不 同 ,以 避免 重 写 OutPutFormat 类 。 下 面 根据 MapReduce 的 
处 理 过 程 给 出 倒 排 索引 的 设计 思路 。 


1) Map 过 程 

首先 使 用 默认 的 TextInputFormat 类 对 输入 文件 进行 处 理 , 得 到 文本 中 每 行 的 偏 移 量 
及 其 内 容 。 显 然 , Map 过 程 首先 必须 分 析 输 入 的 “二 key,value 记 对 ”, 得 到 倒 排 索引 中 需要 
的 3 个 信息 : 单词 .文档 URL 和 词 频 , 如 图 10-4 所 示 。 


“MapReduce” filel.txt 1 

Su” file1.txt 1 

<0,” MapReduce is simple” > Map “simple” filel.txt 1 
“MapReduce” file2.txt 1 

“is” file2.txt 1 

<0,” MapReduce is powerful is simple” > Map “powerful” file2.txt 1 
“y” file2.txt 1 

“simple” file2.txt 1 

<0,” Hello MapReduce bye MapReduce” > Map “Hello” file3.txt 1 
“MapReduce” file3.txt 1 

“bye” file3.txt 1 

“MapReduce” file3.txt 1 


图 10-4 Map 过 程 输入 /输出 


这 里 存在 两 个 问题 : 四 过 key,value 二 对 只 能 有 两 个 值 ,在 不 使 用 Hadoop 自 定义 数据 
类 型 的 情况 下 ,需要 根据 情况 将 其 中 两 个 值 合并 成 一 个 值 ,作为 key 或 value 值 ; @ 通 过 一 
个 Reduce 过 程 无 法 同时 完成 词 频 统 计 和 生成 文档 列表 ,所 以 必须 增加 一 个 Combine 过 程 
完成 词 频 统计 。 

这 里 讲 单词 和 URL 组 成 key 值 (如 “MapReduce: filel. txt”) ,将 词 频 作为 value, 这 样 
做 的 好 处 是 可 以 利用 MapReduce 框架 自 带 的 Map 端 排 序 , 将 同一 文档 的 相同 单词 的 词 频 
组 成 列表 ,传递 给 Combine 过 程 ,实现 类 似 于 WordCount 的 功能 。 

2) Combine 过 程 

经 过 map 方法 处 理 后 ,Combine 过 程 将 key 值 相同 的 value 值 累 加 ,得 到 一 个 单词 在 文 
档 中 的 词 频 ,如 图 10-5 所 示 。 如 果 直 接 将 图 10-5 所 示 的 输出 作为 Reduce 过 程 的 输入 ,在 
Shuffle 过 程 时 将 面临 一 个 问题 : 所 有 有 具有 相同 单词 的 记录 (由 单词 .URL 和 词 频 组 成 ) 应 该 
交 由 同一 个 Reducer 处 理 , 但 当前 的 key 值 无 法 保证 这 一 点 ,所 以 必须 修改 key 值 和 value 
值 。 这 次 将 单词 作为 key 值 ,URL 和 词 频 组 成 value 值 (如 “filel. txt: 1”)。 这 样 做 的 好 处 
是 可 以 利用 MapReduce 框架 默认 的 HashPartitioner 类 完成 Shuffle 过 程 ,将 相同 单词 的 所 
有 记录 发 送 给 同一 个 Reducer 进行 处 理 。 

3) Reduce 过 程 

经 过 上 述 两 个 过 程 后 ,Reduce 过 程 只 需 将 相同 key 值 的 value 值 组 合成 倒 排 索 引文 件 
所 需 的 格式 即 可 , 剩 下 的 事情 就 可 以 直接 交 给 MapReduce 框架 进行 处 理 了 。 如 图 10-6 所 
示 。 索 引文 件 的 内 容 除 分 隔 符 外 ,与 图 10-3 解释 相同 。 

4) 需要 解决 的 问题 

本 实例 设计 的 倒 排 索引 在 文件 数目 上 没有 限制 ,但 是 单词 文件 不 宜 过 大 (具体 值 与 默认 


技术 基础 
“MapReduce: filel.txt ” list(1) “ MapReduce: filel.txt ”1 
“is: filel.txt” list(1) “is: file1.txt” 


“simple :file1.txt” list(1) Combine “simple :file1.txt” 1 


“MapReduce: file2.txt” 1 


“MapReduce: file2.txt” list(1) 3 
“is: file2.txt” list(1,1) Combine ) is: file2.txt 2 
list(1) “powerful : file2.txt” 1 
1 


“powerful : file2.txt” 
“simple: file2.txt” 


“simple: file2.txt” list(1) 

“Hello: file3.txt” list(1) Combine “Hello: file3.txt” 1 

“MapReduce: file3.txt” list(1,1) popeda file3.ot 2 

“simple: file3.txt” list(1) simple: file3.txt 1 
eee | 


图 10-5 Combine 过 程 输入 /输出 


“MapReduce” “filel.txt:1” 
Sis” “file1.txt:1” 
“simple” “filel.txt:1” 


:1;file2.txt:1;file3.txt:2;” 


“MapReduce” 
“ig” 


“MapReduce” “file2.txt:1” “simple” „txt: 1;file2.txt:1;” 
i ba “file2.txt:2” Reduce) | “powerful” ile2 i 


“powerful” “file2.txt:1” “Hello” 

“simple” “file2.txt:1” “bye” “file3.txt:1; 
“Hello” “file3.txt:1” 

“MapReduce” “file3.txt:2” 

“simple” “file3.txt:1” 


图 10-6 Reduce 过 程 输入 /输出 


HDFS 块 大 小 及 相关 配置 有 关 ) ,要 保证 每 个 文件 对 应 一 个 split。 否 则 ,由 于 Reduce 过 程 
没有 进一步 统计 词 频 ,最 终结 果 可 能 会 出 现 词 频 未 统计 完全 的 单词 。 可 以 通过 重 写 
InputFormat 类 将 每 个 文件 为 一 个 sblit ,避免 上 述 情 况 。 或 者 执行 两 次 MapReduce, 第 一 次 
MapReduce 用 于 统计 词 频 ,第 二 次 MapReduce 用 于 生成 倒 排 索引 。 除 此 之 外 ,还 可 以 利用 
复合 键 值 对 等 实现 包含 更 多 信息 的 倒 排 索引 。 


10.7.2 倒 排 索引 完整 源码 
程序 代码 如 下 所 示 。 


public class InvertedIndex { 
private static final String INPUT_PATH="hdfs://master:9000/indexdata"; 


private static final String OUTPUT PATH= "hdfs://master:9000/invertedindex"; 
public static class Map extends Mapper< Object, Text, Text, Text> { 


private Text keyInfo=new Text (); // 存储 单词 和 URL 组 合 
private Text valueInfo=new Text (); // 存储 词 频 

private FileSplit split; // 存储 Split WR 

// 实现 map 函数 


public void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
// 获得 <key,value> 对 所 属 的 Filesplit PR 
split= (FileSplit) context.getInputSplit (); 
StringTokenizer itr=new StringTokenizer (value.toString()) 
while (itr.-hasMoreTokens()) { 
// key 值 由 单词 和 URL #4 i , Ml "MapReduce: filel.txt" 
// 获 取 文件 的 完整 路 径 
keyInfo.set (itr.nextToken ()+":"+ split.getPath () .toString()); 
// 这 里 为 了 好 看 ,只 获取 文件 的 名 称 
int splitIndex= split.getPath () .tostring () .indexOf ("file"); 
keyInfo.set (itr.nextToken() +":" 
+ split.getPath() .toString() -substring (splitIndex)); 
// 词 频 初始 化 为 1 
valueInfo.set ("1"); 
context.write (keyInfo, valueInfo) ; 


public static class Combine extends Reducer< Text, Text, Text, Text>{ 
private Text info=new Text (); 
// 实现 reduce 函数 
public void reduce (Text key, Iterable< Text>values, Context context) 
throws IOException, InterruptedException { 
// 统计 词 频 
int sum= 0; 
for (Text value : values) { 
sum += Integer.parseInt (value.toString()); 
i 
int splitIndex=key.toString () .indexOf (":") ; 
// 重新 设置 value 值 使 之 由 URL 和 词 频 组 成 
info.set (key.toString () .substring (splitIndex +1) +":" +sum); 
// 重新 设置 key 值 为 单词 
key.set (key.toString () .substring(0, splitIndex) ); 
context .write (key, info); 


} 
public static class Reduce extends Reducer< Text, Text, Text, Text>{ 
private Text result=new Text (); 
// 实现 reduce 函数 
public void reduce (Text key, Iterable< Text> values，Context context) 
throws IOException, InterruptedException { 
// 生成 文档 列表 
String fileList=new String(); 


public static void main (String[] args) throws Exception { 


for (Text value : values) { 
fileList +=value.toString() +";"; 


$ 
result.set (fileList); 
context.write (key, result); 


Configuration conf=new Configuration (); 
// 这 句 话 很 关键 


conf.set ("mapred.job.tracker", "192.168.1.20:3306"); 
String[] ioArgs=new String[] { "index in", "index out" }; 
String[] otherArgs=new GenericOptionsParser (conf, ioArgs) .getRemainingArgs () ; 


if (otherArgs.length !=2) { 


System.err.println("Usage: Inverted Index <in><out>"); 


System.exit (2); 
} 

Job job=new Job (conf, "Inverted Index"); 
job.setJarByClass (InvertedIndex.class) ; 
// 设置 Map, Combine 和 Reduce 处 理 类 
job.setMapperClass (Map.class) ; 
job.setCombinerClass (Combine.class) ; 
job.setReducerClass (Reduce.class) ; 

// 设置 Map 输出 类 型 
job.setMapOutputKeyClass (Text .class); 
job.setMapOutputValueClass (Text .class); 
// 设置 Reduce 输 出 类 型 
job.setOutputKeyClass (Text .class); 
jjob.setOutputValueClass (Text.class) ; 


// 设置 输入 和 输出 目录 


FileInputFormat.addInputPath (job, new Path (INPUT PATH)); 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH) ) ; 


job.waitForCompletion (true) ; 


10.7.3 ”运行 代码 结果 
程序 运行 结果 如 下 : 


Hello 


MapReduce 


bye 


is 


file3.txt:1; 


file3.txt:1; 
filel.txt:1;file2.txt:2; 


powerful file2.txt:1; 


simple 


file2.txt:1;filel.txt:1; 


file3.txt:2;filel.txt:1;file2.txt:1; 


本 章 小 结 


本 章 详细 讲解 了 MapReduce 的 高 级 特性 ,包含 以 下 内 容 : 

(1) 通过 学 习 计数 器 的 内 置 计 数 器 和 用 户 自 定义 的 Java 计数 器 ,充分 了 解 计数 器 的 功 
能 作用 及 技术 特点 。 

(2) 主要 学 习 了 数据 去 重 的 实例 描述 .设计 思路 及 案例 实现 .。“ 数 据 去 重 ” 主 要 是 为 了 
掌握 和 利用 并 行 化 思想 来 对 数据 进行 有 意义 的 筛选 。 

(3) 用 MapReduce 实现 简单 排序 ,通过 设计 思路 和 实例 讲解 快速 感受 MapReduce 过 
程 中 的 排序 。 

(4) 通过 简单 排序 的 讲解 ,更 深入 地 学 习 二 次 排序 的 思想 ,熟悉 二 次 排序 的 原理 及 
应 用 。 
(5) 通过 平均 值 的 实例 描述 .设计 思路 及 案例 实现 (程序 包括 两 部 分 的 内 容 : Map 部 分 
和 Reduce 部 分 ) 分 别 实现 了 map 和 reduce 的 功能 。 

(6) 实现 Map 端 join 和 Reduce 端 join ,在 两 个 大 规模 输入 数据 集 之 间 的 map 端 联接 
会 在 数据 到 达 map 函数 之 前 就 执行 联接 操作 。 由 于 reduce 端 连接 并 不 要 求 输入 数据 集 符 
合 特定 结构 ,因而 reduce 端 联接 比 map 端 联接 更 为 常用 。 

(7) 由 于 不 是 根据 文档 来 确定 文档 所 包含 的 内 容 ,而 是 进行 相反 的 操作 ,因而 称 为 倒 排 
索引 。 学 习 了 倒 排 索 引 的 原理 及 应 用 , 它 主 要 是 用 来 存储 某 个 单词 (或 词组 ) 在 一 个 文档 或 
一 组 文档 中 的 存储 位 置 的 映射 , 即 提供 了 一 种 根据 内 容 来 查找 文档 的 方式 。 


习 题 


问答 题 

(1) 计数 器 中 内 置 计数 器 和 用 户 定义 的 Java 计数 器 有 什么 区 别 ? 
(2) 简要 概述 二 次 排序 的 设计 思路 。 

(3) 简要 概述 平均 值 的 设计 与 实现 。 

(4) Join 联接 中 ,Reduce 的 优势 是 什么 ? 

(5) 倒 排 索 引 有 什么 功能 和 作用 ? 


MapReduce 实例 


本 章 提 要 


在 完成 了 第 一 阶段 的 学 习 后 ,相信 大 家 已 经 对 HDFS 和 MapReduce 有 了 很 多 的 了 解 ， 
那么 接 下 来 ,我 们 将 实现 三 个 小 的 MapReduce 实例 。 


1L1 搜索 引擎 日 志 处 理 


11.1.1 背景 介绍 


对 于 网 站 优化 来 说 ,搜索 引擎 日 志 分 析 是 必 不 可 少 的 一 块 。 无 论 是 收录 上 百 的 小 型 网 
站 ,还 是 收录 上 百 万 的 大 中 型 网 站 ,SEO 要 想 做 得 好 ,都 必须 进行 科学 的 日 志 分 析 。 日 志 是 
发 生 在 网 站 服务 器 上 的 所 有 事件 的 记录 ,包括 用 户 访问 记录 、 搜 索引 擎 抓 取 记 录 ,对 于 一 些 
大 型 网 站 来 说 ,每 天 产生 的 日 志 的 数据 量 是 巨大 的 。 而 要 对 历史 搜索 日 志 做 分 析 , 则 必须 要 
用 到 大 数据 的 技术 。 
11.1.2 数据 收集 

搜索 引擎 在 收集 数据 方面 具有 独特 的 优势 ,拥有 巨大 的 用 户 群 和 样本 数 ,使 数据 分 析 结 
果 更 接近 真实 情况 ,大 的 搜索 引擎 每 天 会 接受 用 户 数 亿 次 的 搜索 请 求 ,搜索 的 “关键 词 " 准 确 
地 记录 了 网 民主 动 提出 的 各 种 需求 ,真实 反映 了 网 民 需 求 的 发 展 趋势 。 

本 文 使 用 的 数据 来 源 于 搜狗 公司 ,搜狗 公司 作为 搜索 引擎 市 场 占有 率 第 三 位 的 公司 ,每 
天 产生 大 量 搜索 日 志 , 存 储 了 大 量 网 民 的 搜索 数据 。 搜 狗 公司 开放 了 约 一 个 月 的 Sougou 
搜索 引擎 网 页 需求 及 用 户 点 击 情况 的 日 志 数 据 集合 。 本 文 所 使 用 的 数据 是 其 中 的 一 部 分 ， 
这 一 部 分 数据 共有 500 万 条 记录 。 


11.1.3 数据 结构 


本 数据 的 数据 格式 为 


访问 时 间 \t 用 户 ID\t 查询 的 关键 词 \t 该 URL 在 返回 结果 中 的 排名 \t 用 户 点 击 的 顺序 号 \t 用 户 点 
击 的 URL 


数据 样 例 : 


20111230001652 ”2e7a3cdd49133b8f2fdf10d11a923837 文 趣 吧 1 1 http://www.wenquba.com/ 


11.1.4 需求 分 析 


1. 数据 条 数 统计 

要 统计 的 数据 条 数 包括 : 

(1) 非 空 查询 条 数 ; 

(2) 独立 UID 总 数 。 

2. 查询 关键 词 分 析 

查询 每 个 关键 词 的 搜索 次 数 ( 按 正 序 排序 ) 。 
3. UID 分 析 

查询 次 数 大 于 5 次 的 UID。 


11.1.5 MapReduce 编码 实现 


1. 数据 条 数 统计 
(1) 统计 非 空 查询 条 数 。 


publicclass NotNullData { 
publicstaticvoid main (String args [ ]) throws IOException, ClassNotFoundException, 
InterruptedException { 
if (null==args||args.length !=2) { 
System.err.println ("<Usage:NotNullDataMain>") ; 
System.exit (- 1); 
} 
Job job= newJob (new Configuration (),NotNullData.class.getSimpleName () ) ; 
job.setJarByClass (NotNullData.class) ; | 
job.setMapperClass (MyMapper.class) ; 
job.setReducerClass (MyReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path (args [0])); 
FileOutputFormat .setOutputPath (job, new Path (args [1])); 
job.waitForCompletion (true) ; 
publicstaticclass MyMapper extends Mapper< Object, Text , Text , IntWritable> { 
publicvoid map (Object k1,Text vl,Context context) 
throws IOException, InterruptedException{ 
Text k2=new Text ("not null data number:"); 
IntWritable One= new IntWritable (1); 
String line=vl.toString(); 
String[] data=line.split("\t"); 
if (data !=nulléé data.length== 6) { 
String keyWorld=data[2]; 
if (!keyWorld.equals (null) && !keyWorld.equals("")) { 
context .write (k2, One); 
} 


publicstaticclass MyReducer extends Reducer< Text , IntWritable, Text , IntWritable> { 

publicvoid reduce (Text k2, Iterable< IntWritable>v2s,Context context) 
throws IOException, InterruptedException{ 

int v3=0; 

for (IntWritable value:v2s) { 

v3+t=value.get (); 
} 
context .write(k2, new IntWritable (v3) ); 


} 
将 程序 打包 ,通过 “hadoop jar” 命 令 执 行程 序 , 查 看 得 到 的 文件 ,如 下 所 示 ; 


SLF4]: Class path contains multiple SLF4] bindings. 

ISLF4): Found binding in [jar:file:/home/zkpk/hadoop-2.5.1/share/hadoop/common/1i 
b/s f4j -10g4j12-1.7.5.jar!/org/slf4j/impl\/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-0.98.7-hadoop2/Lib/s1f4j -log4 
j12-1.6.4. jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/01/10 01:45:44 WARN util.NativeCodeLoader: Unable to load native-hadoop libra 
ry for your platform... using bujgbinejava classes where applicable 

not null data number: 5000000 


(2) 统计 独立 UID 总 数 。 


publicclass UUidNumber { 
publicstaticvoid main (String args [ ]) throws IOException, ClassNotFoundException, 
InterruptedException { 
if (null==args||args.length !=3) { 
System.err.println ("<Usage:UUidNumberMain>") ; 
System.exit (- 1); 
$ 
Job jobl= newJob (new Configuration (),UUidNumber.class.getSimpleName () ) ; 
job1.setJarByClass (UUidNumber.class) ; 
job1.setMapperClass (MyMapperl.class) ; 
job1.setReducerClass (MyReducerl.class) ; 
job1.setOutputKeyClass (Text.class) ; 
job1.setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (jobl, new Path (args[0])); 
FileOutputFommat .setOutputPath (jobl, new Path (args[1])); 
job1.waitForCompletion (true); 


Job job2= newJob (new Configuration () ,UUidNumber.class.getSimpleName () ) ; 
job2.setJarByClass (UUidNumber.class) ; 
job2.setMapperClass (MyMapper2.class) ; 
job2.setReducerClass (MyReducer2.class) ; 
job2.setOutputKeyClass (Text .class) ; 
job2.setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (job2, new Path(args[1])); 
FileOutputFormat .setOutputPath (job2, new Path (args[2])); 
job2.waitForCompletion (true) ; 

} 

publicstaticclass MyMapperl extends Mapper< Object, Text, Text, IntWritable> { 


publicvoid map (Object k1,Text vl,Context context) 
throws IOException, InterruptedException{ 
Text k2=new Text (""); 
IntWritable One=new IntWritable (1); 
String line=vl.toString(); 
String[] data= line.split ("\t"); 
if (data !=null&& data. length== 6) { 
String uid=data[1]; 
k2.set (uid); 
context.write(k2, One); 


} 
publicstaticclass MyReducerl extends Reducer< Text , IntWritable, Text , IntWritable> { 
publicvoid reduce (Text k2, Iterable< IntWritable>v2s,Context context) 
throws IOException, InterruptedException{ 
int v3=0; 
for (IntWritable value:v2s) { 
v3+=value.get (); 
} 
context.write(k2, new IntWritable(v3)); 


} 
publicstaticclass MyMapper2 extends Mapper< Object, Text, Text, IntWritable> { 
publicvoid map (Object k3, Text v3,Context context) 
throws IOException, InterruptedException{ 
IntWritable One=new IntWritable (1); 
Text k4=new Text ("UUid number is"); 
context .write(k4, One); 


} 
publicstaticclass MyReducer2 extends Reducer< Text , IntWritable, Text , IntWritable> { 
publicvoid reduce (Text k4, Iterable< IntWritable>v4s,Context context) 
throws IOException, InterruptedException{ 
int v5=0; 
for (IntWritable value:v4s) { 
v5+=value.get () 7 
} 
context .write (k4, new IntWritable (v5)); 


} 
将 程序 打包 ,通过 “hadoop jar” 命 令 执行 程序 ,查看 得 到 的 文件 ,如 下 所 示 。 


: Class path contains multiple SLF4] bindings. 

Found binding in [jar:file:/home/zkpk/hadoop-2.5.1/share/hadoop/common/li 
b/s1f4j-10g4j12-1.7.5.jar!/org/slf4j/imp\/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-0.98.7-hadoop2/lib/s1f4j-log4 
.4.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

See http: //www.slf4j.org/codes.html#multiple_ bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/01/10 02:46:10 WARN util.NativeCodeLoader: Unable to load native-hadoop libra 
ry for your platform... using builtin-java classes where applicable 

UUid number is 1352664 


2. 查询 关键 词 分 析 
查询 每 个 关键 词 的 搜索 次 数 ( 按 正 序 排序 ) 。 


publicclass KeyWorldRank { 
publicstaticvoid main (String args [ ]) throws JOException, ClassNotFoundException, 
InterruptedException { 
if (null==args||args.length !=3) { 
System.err.println ("< Usage:KeyWorldRankMain>") ; 
System.exit (- 1); 
} 
Job job=newJob (new Configuration () ,KeyWworldRank.class.getSimpleName () ) ; 
job.setJarByClass (KeyWorldRank.class) ; 
job. setMapperClass (MyMapper .class) ; 
job.setReducerClass (MyReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (job, new Path (args [0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 
job.waitForCompletion (true); 
Job job2=newJob (new Configuration () ,KeyWorldRank.class.getSimpleName () ) ; 
jjob2.setJarByClass (KeyWorldRank.class) ; 
job2.setMapperClass (MyMapper2.class) ; 
| job2.setReducerClass (MyReducer2.class) ; 
| job2. setOutputKeyClass (IntWritable.class); 

1 job2.setOutputValueClass (Text .class) ; 
FileInputFormat.addInputPath (job2, new Path (args[1])); 
FileOutputFormat .setOutputPath (job2, new Path (args [2])); 
job2.waitForCompletion (true) ; 

+ 
publicstaticclass MyMapper extends Mapper< Object, Text, Text, IntWritable> { 
publicvoid map (Object k1,Text vl,Context context) 
throws IOException , InterruptedException{ 
Text k2=new Text (""); 
IntWritable One=new IntWritable (1); 
String line=vl.toString(); 
String[] data=line.split("\t"); 
if (data !=null&& data. length== 6) { 
String keyWorld=data[2]; 
k2.set (data[2]); 
context .write (k2, One); 


} 
publicstaticclass MyReducer extends Reducer< Text , IntWritable, Text , IntWritable> { 
publicvoid reduce (Text k2, Iterable< IntWritable>v2s,Context context) 
throws IOException , InterruptedException{ 
int v3=0; 
for (IntWritable value:v2s) { 
v3+=value.get (); 


context .write(k2, new IntWritable (v3)); 


publicstaticclass MyMapper2 extends Mapper< Object, Text, IntWritable, Text> { 
publicvoid map (Object k3,Text v3,Context context) 
throws IOException , InterruptedException{ 
Text v4=new Text (""); 
IntWritable k4=new IntWritable (0); 
String line=v3.toString(); 
String[] data=line.split ("\t"); 
if (data !=nullsé data.length== 2) { 
String keyWorld=data[0]; 
v4.set (data[0]); 
k4.set (Integer.valueOf (data[1])); 
context.write(k4, v4); 


} 
publicstaticclass MyReducer2 extends Reducer< IntWritable, Text , IntWritable, Text > { 
publicvoid reduce (IntWritable k4, Iterable< Text>v4s, Context context) 
throws IOException , InterruptedException{ 
Text vS=new Text (""); 
String keyworlds=null; 
for (Text value:v4s) { 
keyworlds=value.toString(); 
v5.set (keyworlds) ; 
context .write (k4,v5 ) 7 


百度 一 下 你 就 知道 
a 


3. UID 分 析 
查询 次 数 大 于 5 次 的 UID。 


publicclass KeyWorldRank { 
publicstaticvoid main (String args [ ]) throws IOException, ClassNotFoundException, 
InterruptedException { 
if (null==args||args.length !=3){ 
System.err.print1n ("<Usage:KeyWor]dRankMain>") ; 
System.exit (- 1); 


} 


Job job= newJob (new Configuration () ,KeyWorldRank.class.getSimpleName()); 
job. setJarByClass (KeyWorldRank.class) ; 

job. setMapperClass (MyMapper .class) ; 

job. setReducerClass (MyReducer.class) ; 

job. setOutputKeyClass (Text .class); 

job. setOutputValueClass (IntWritable.class) ; 
FileInputFormat.addInputPath (job, new Path(args[0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 
job.waitForCompletion (true) ; 

Job job2= newJob (new Configuration () ,KeyiorldRank.class.getSimpleName()) ; 
job2.setJarByClass (KeyWorldRank.class) ; 

jjob2.setMapperClass (MyMapper2.class) ; 

job2.setReducerClass (MyReducer2.class) ; 

jjob2. setOutputKeyClass (IntWritable.class) ; 

job2.setOutputValueClass (Text .class) ; 

FileInputFormat .addInputPath (job2, new Path(args[1])); 
FileOutputFormat .setOutputPath (job2, Path (args[2])); 
job2.waitForCompletion (true); 


publicstaticclass MyMapper extends Mapper< Object, Text, Text, IntWritable> { 


publicvoid map (Object k1,Text vl,Context context) 
throws IOException , InterruptedException{ 
Text k2=new Text (""); 
IntWritable One= new IntWritable(1); 
String line=vl.toString(); 
String[] data=line.split ("\t"); 
if (data !=null&& data. length==6) { 
String keyWorld=data[2]; 
k2.set (data[2]); 
context .write (k2, One); 


publicstaticclass MyReducer extends Reducer< Text , IntWritable, Text , IntWritable> { 


publicvoid reduce (Text k2, Iterable< IntWritable>v2s,Context context) 
throws IOException , InterruptedException{ 
int v3=0; 
for (IntWritable value:v2s) { 
v3t=value.get (); 
} 
context .write(k2, new IntWritable (v3) ); 


publicstaticclass MyMapper2 extends Mapper< Object, Text, IntWritable, Text> { 


publicvoid map (Object k3,Text v3,Context context) 
throws IOException , InterruptedException{ 

Text v4=new Text (""); 

IntWritable k4=new IntWritable (0); 

String line=v3.toString(); 

String[] data=line.split("\t"); 


if (data !=nullsé data.length==2) { 
String keyWorld=data[0]; 
v4.set (data [0]); 
k4.set (Integer.valueOf (data[1])) + 
context.write (k4, v4); 


} 
} 
publicstaticclass MyReducer2 extends Reducer< IntWritable, Text , IntWritable, Text> { 
publicvoid reduce (IntWritable k4, Iterable< Text>v4s,Context context) 
throws IOException , InterruptedException{ 
Text vS=new Text (""); 
String keyworlds=null; 
for (Text value:v4s) { 
keyworlds += (value.toString()+"\t"); 
} 
v5.set (keyworlds) ; 
context .write(k4,v5 ); 


} 
将 程序 打包 ,通过 “hadoop jar" 命 令 执行 程序 ,查看 得 到 的 文件 ,如 下 所 示 : 


SLF4J: Class path contains multiple SLF4] bindings. 

SLF4J: Found binding in [jar:file:/home/zkpk/hadoop-2.5.1/share/hadoop/common/li 
b/s1f4j-10g4j12-1.7.5.jar!/org/slf4j/imp\/StaticLoggerBinder. class] 

SLF4J: Found binding in [jar:file:/home/zkpk/hbase-@.98.7-hadoop2/lib/s1f4j-log4 
j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.slf4j.org/codes.html#multiple bindings for an explanation. 
SLF4): Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

16/01/10 02:44:20 WARN util.NativeCodeLoader: Unable to load native-hadoop libra 
ry for your platform... using builtin-java classes where applicable 

Uid query > 5 number is 2772121<—— 


11.2 汽车 销售 数据 分 析 


大 数据 已 深耕 于 经 济 领域 , 且 创 造 了 巨大 的 经 济 价值 。 在 全 球 经 济 一 体 化 的 今天 ， 
RE IT 行业 已 经 开启 了 大 数据 的 起 航 之 旅 ,大 数据 已 经 在 经 济 领域 发 挥 着 重要 作用 。 
如 今 大 数据 已 成 为 市 场 营销 的 重要 手段 ,与 传统 的 市 场 研究 方法 不 同 , 大 数据 的 市 场 
研究 方法 不 再 局 限于 抽样 调查 ,而 是 基于 几乎 全 样本 空间 ,因而 大 数据 在 汽车 行业 也 
起 到 了 至 关 重 要 的 作用 ,引领 着 决策 者 在 营销 方面 做 出 正确 的 判断 。 下 面 我 们 将 对 汽 
车 销售 数据 进行 简要 分 析 。 


11.2.1 背景 介绍 


汽车 销售 (Atuo Sales) 是 消费 者 支出 的 重要 组 成 部 分 ,同时 能 很 好 地 反映 出 消费 者 对 
经 济 前 景 的 信心 。 通 常 .汽车 销售 情况 是 我 们 了 解 一 个 国家 经 济 循环 强 弱 情况 的 第 一 手 资 
料 , 早 于 其 他 个 人 消费 数据 的 公布 。 因 此 ,汽车 销售 为 随后 的 零售 额 和 个 人 消费 支出 提供 了 


很 好 的 预示 作用 ,汽车 消费 额 占 零 售 额 的 25% 和 整个 销售 总 额 的 8%。 另 外 ,汽车 销售 可 作 
为 预示 经 济 衰退 和 复苏 的 早期 信号 。 


11.2.2 数据 收集 


和 其 他 领域 的 研究 一 样 , 当 我 们 选 定 了 相应 的 研究 设计 之 后 ,一 个 重要 的 问题 就 是 如 何 
能 准确 有 效 地 收集 数据 。 

对 于 数据 的 收集 ,往往 需要 做 大 量 的 工作 ,其 一 般 过 程 为 : 

(1) 明确 调查 的 目的 ,确定 调查 对 象 。 

(2) 选择 合适 的 调查 方式 。 

(3) 展开 调查 活动 ,收集 数据 。 

(4) 整理 数据 。 收 集 的 数据 结果 往往 比较 混乱 ,为 了 便于 分 析 , 可 采用 如 条 形 图 、 扇 形 
图 .表格 等 方式 对 数据 进行 整理 。 

(5) 分 析 数 据 ,得 出 结论 。 


11.2.3 数据 结构 


本 例 使 用 的 数据 为 上 牌 汽车 的 销售 数据 ,分 为 乘 用 车 辆 和 商用 车 辆 。 数 据 包含 销售 相 
关 数 据 和 汽车 具体 参数 。 数 据 项 包括 : 时 间 、 销 售 地 点 .邮政 编码 .车 辆 类 型 .车 辆 型 号 、 制 
造 厂 商 名 称 、 排 量 油耗、 功率 、 发 动机 型 号 燃料 种 类 、 车 外 廓 长 宽 高 、 轴 上 距 .前 后 车 轮 、 轮 胎 
规格 、 轮 胎 数 、 载 客 数 所有权、 购买 人 相关 信息 等 。 


11.2.4 需求 分 析 


通过 对 该 汽车 行业 数据 的 数据 结构 的 描述 ,我 们 已 经 对 这 份 数据 有 了 初步 的 了 解 。 下 
面 将 对 这 份 数据 进行 需求 分 析 与 实现 。 

1. 汽车 行业 市 场 分 析 

(1) 统计 乘 用 车 辆 和 商用 车 辆 的 数量 和 销售 分 布 ; 

(2) 统计 山西 省 2013 年 每 个 月 的 汽车 销售 数量 的 比例 。 

2. 用 户 数 据 市 场 分 析 

(1) 统计 买 车 的 男女 比例 及 男女 对 车 的 品牌 的 选择 ; 

(2) 统计 车 的 所 有 权 、 型 号 和 类 型 。 

3. 不 同 车 型 销售 统计 分 析 

通过 不 同类 型 (品牌 ) 车 的 销售 情况 ,来 统计 发 动机 型 号 和 燃料 种 类 。 


11.2.5 MapReduce 编码 实现 


1. 汽车 行业 市 场 分 析 
(1) 统计 乘 用 车 辆 和 商用 车 辆 的 数量 和 销售 分 布 实现 如 下 。 


public class CarCountMain { 
private static final String INPUT_PATH="hdfs://master:9000/cardata/1.1.txt"; 
private static final String OUTPUT_PATH="hdfs: //master:9000/cardataout/out1.1"; 
public static void main (String[] args) throws IOException, 
ClassNotFoundException, InterruptedException, URISyntaxException { 


@ SuppressWarnings ("deprecation") 

Configuration conf=new Configuration (); 

Job job= new Job (conf, "CarCountMain") ; 

FileSystem fileSystem=FileSystem.get (new URI (INPUT_PATH), conf); 

if (fileSystem.exists (new Path (OUTPUT_PATH) )) { 
fileSystem.delete (new Path (OUTPUT_PATH), true); 

} 

job.setJarByClass (CarCountMain.class) ; 

job. setMapperClass (CarCountMapper.class) ; 

job.setMapOutputValueClass (IntWritable.class) ; 

job.setReducerClass (CarCountReduce.class) ; 

job.setOutputKeyClass (Text .class) ; 

job. setOutputValueClass (Text.class) ; 

FileInputFormat .addInput Path (job, new Path (INPUT_PATH) ) > 

FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH)) ; 

4job.waitForCompletion (true) ; 


public class CarCountMapper extends Mapper< LongWritable, Text, Text, IntWritable> { 
private Text newKey=new Text () 
private IntWritable newValue=new IntWritable(); 
private static Set< Integer> numSet=new TreeSet< > () 7 
@ Override 
protected void map (LongWritable key, Text value,Mapper< LongWritable, Text, Text, 
IntWritable> .Context context) 
throws IOException, InterruptedException { 


String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (arr!=null && arr.length==3 && !arr[0] .equals ("数量 ")) { 
int carNum= Integer.parseInt (arr[0].trim()); 
// 目标 是 取出 字符 串 中 的 所 有 数字 
String carLoadNumString=arr[1].trim(); 
// 正则 初始 化 
Pattern p=Pattern.compile (" [0- 9]{1,3}"); 
// 匹配 器 初始 化 
Matcher m=p.matcher (carLoadNumString) ; 
// 匹配 查询 
int carLoadNum= 0; 


while (m.find()) { 
carLoadNum Integer .parseInt (m.group (0) ) 7 
numSet .add (carLoadNum) ; 


3 
if (numSet.size()>0) { 
carLoadNum= (int) numSet .toArray () [numSet.size()-1]; 
numSet .clear (); 
} 
if (carLoadNum> 0&&carLoadNum< 10 | | arr [2] . contains ("小 ") | | arr [2] . contains (" 
微 ")){ 
newKey.set ("RHF"); 
newValue.set (carNum) ; 
context.write (newKey, newValue); 
Jelseif (carLoadNum> 9| | arr [2] «contains ("4") | |arr[2] -contains ("K")) { 
newKey. set ("商用 车 辆 "); 
newValue.set (carNum) ; 
context.write (newKey, newValue); 
Jelse { 
newKey.set ("HL (th Æ$ "+ arr [2]+"1111"+ carLoadNumString) ; 
newValue.set (carNum) ; 
context.write (newKey, newValue) ; 
} 


Jelse if (!arr [0] .equals ("数量 ")){ 


context.write (new Text (" 其 他 车 辆 ")，new IntWritable (Integer. parseInt (arr 
[0]))); 


public class CarCountReduce extends Reducer< Text, IntWritable, Text, Text> { 
private static double countSum= 0; 
private static double carCount1=0; 
private static double carCount2=0; 
@ Override 
protected void reduce (Text key, Iterable< IntWritable> values, 
Reducer< Text, IntWritable, Text, Text> .Context context) 
throws IOException, InterruptedException { 
int count=0; 
for (IntWritable value:values) { 


} 


count +=value.get (); 


countSum +=count; 
if (key.toString () .equals ("商用 车 辆 ")) { 


carCount1 +=count; 


Jelse if (key.toString() -equals (" 乘 用 车 辆 ")) { 


} 


carCount2 +=count; 


context .write (key, new Text (count+ "$f ") ) ; 


@ Override 

protected void cleanup (Reducer< Text, IntWritable, Text, Text> .Context context) 

throws IOException, InterruptedException { 
context .write (new Text (" 车 辆 总 量 :") ，new Text (countSum+ "") ) ; 
context .write (new Text ("销售 额 分 布 商 用 车 辆 :"+ carCount1/countSum), new Text ("销售 
额 分 布 乘 用 车 辆 :"+ carCount2/countSum) ) ; 


} 


程序 运行 结果 如 下 : 
乘 用 车 辆 62163% 
其 他 车 辆 3271 辆 


商用 车 辆 4928 辆 
SPER: 70362.0 
销售 矣 分 布 商用 车 辆 :9.6799378944967454 4A 1 4) MH EA W :0.8834740342798669 


(2) 统计 山西 省 2013 年 每 个 月 的 汽车 销售 数量 的 比例 实现 如 下 。 


public class CarCountMonthMain { 

private static final String INPUT_PATH="hdfs://master:9000/cardata/1.2.txt"; 
private static final String OUTPUT_PATH="hdfs: //master:9000/cardataout/out1.2"; 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException, URISyntaxException { 

@ SuppressWarnings ("deprecation") 

Configuration conf=new Configuration (); 

Job job= new Job (conf, "CarCountMonthMain") ; 

FileSystem fileSystem=FileSystem.get (new URI (INPUT_PATH), conf); 

if (£ileSystem.exists (new Path (OUTPUT_PATH) ) ) { 

fileSystem.delete (new Path (OUTPUT_PATH), true); 

} 

job.setJarByClass (CarCountMonthMain.class) ; 

job.setMapperClass (CarCountMonthMapper .class) ; 

job.setMapOutputValueClass (IntWritable.class) ; 

job.setReducerClass (CarCountMonthReduce.class) ; 

job. setOutputKeyClass (Text .class); 

job. setOutputValueClass (Text .class) ; 


FileInputFormat .addInput Path (job, new Path (INPUT_PATH) ) > 
FileOutputFormat .setOutputPath (job, 

new Path (OUTPUT_PATH) ) ; 

job.waitForCompletion (true); 


public class CarCountMonthMapper extends Mapper< LongWritable, Text, Text, IntWritable> { 
private Text newKey=new Text (); 
private IntWritable newValue=new IntWritable (1); 
@ Override 
protected void map (LongWritable key, Text value, 
Mapper< LongWritable, Text, Text, IntWritable> .Context context) 
throws IOException, InterruptedException { 
String line=value.toString(); 


String[] arr=line.split ("\t"); 
if (arr!=null && arr.length==3 && arr [0].startsWith ("山西 省 ") esarr [1]. equals (" 
2013")) { 

newKey.set (arr[2]); 

context .write (newKey, newValue); 


public class CarCountMonthReduce extends Reducer< Text, IntWritable, Text, Text>{ 

private static double countSune 0; 
private static double[] carCount=new double [13]; 
@ Override 
protected void reduce (Text key, Iterable< IntWritable> values, 
Reducer< Text, IntWritable, Text, Text> .Context context) 
throws IOException, InterruptedException { 

int count=0; 

for (IntWritable value:values) { 

count +=value.get (); 

} 

carCount [Integer .parseInt (key.toString())] +=count; 

countSum += count; 


i @ Override 
i protected void cleanup (Reducer< Text, IntWritable, Text, Text> .Context context) 
= throws IOException, InterruptedException { 
context .write (new Text ("山西 省 2013 年 车 辆 总 量 ="), new Text ((int) countSumt "$ ") ) ; 
for (int i=1; i<carCount.length; i++) { 
context .write (new Text (i+" 月 "), new Text ((int)carCount [i]+"#i")); 
context .write (new Text (i+" 月 的 汽车 销售 数量 的 比例 ")，new Text (carCount [i]/ 
countSumt "")) 7 
context .write (new Text (""), new Text ("")); 


} 


程序 运行 结果 如 下 (部 分 结果 ): 

山西 省 2913 年 车 辆 总 便 : ”79362 辆 

1A 10413% 

] 月 的 汽车 销售 数量 的 比例 9.14799181376311677 
2A 4193 辆 

2 月 的 汽车 销售 数量 的 比例 0.05831272561894204 
3A 6548 辆 


3 月 的 汽车 销售 数量 的 比例 0.09306159574770473 


2. 用 户 数据 市 场 分 析 
(1) 统计 买 车 的 男女 比例 及 男女 对 车 的 品牌 的 选择 实现 如 下 。 


public class CarSexMain { 
private static final String INPUT_PATH="hdfs://master:9000/cardata/2.1.txt"; 
private static final String OUTPUT_PATH="hdfs: //master:9000/cardataout/out2.1"; 
public static void main(String[] args) 
throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException { 
@ SuppressWarnings ("deprecation") 
Configuration conf=new Configuration (); 
Job job= new Job (conf, "CarSexMain") ; 
FileSystem fileSystem=FileSystem.get (new URI (INPUT_PATH), conf); 
if (fileSystem.exists (new Path (OUTPUT_PATH) )) { 
f£ileSystem.delete (new Path (OUTPUT_PATH), true); 
J 
job.setJarByClass (CarSexMain.class) ; 
job. setMapperClass (CarSexMapper .class) ; 
job. setMapOutputValueClass (IntWritable.class) ; 
job.setReducerClass (CarSexReduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (Text .class) ; 


FileInputFormat .addInput Path (job, new Path (INPUT_PATH) ) 7 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH) ) ; 


job.waitForCompletion (true); 


D 


public class CarSexMapper extends Mapper< LongWritable, Text, Text, IntWritable> { 
private Text newKey=new Text (); 
private IntWritable newValue=new IntWritable (1); 
@ Override 
protected void map (LongWritable key, Text value, 
Mapper< LongWritable, Text, Text, IntWritable> .Context context) 
throws IOException, InterruptedException { 
String sex=value.toString(); 
if (sex.contains("#")) { 
newkKey.set (" 男 ") 
context .write (newKey, newValue); 
Jelse if (sex.contains("&")) { 
newKey.set ("4"); 
context .write (newKey, newValue) ; 
jelse { 
newKey.set ("other") ; 
context. .write (newKey, newValue); 


public class CarSexReduce extends Reducer< Text, IntWritable, Text, Text>{ 
private static double countSum= 0; 
private static double[] sexCarCount=new double [3]; 


@ Override 
protected void reduce (Text key, Iterable< IntWritable> values, 
Reducer< Text, IntWritable, Text, Text> .Context context) 
throws IOException, InterruptedException { 
int count=0; 
for (IntWritable value:values) { 
count +=value.get (); 


} 

if (key.toString() .equals("B")) { 
sexCarCount [0] +=count; 

Jelse if (key.toString() .equals(" 女 ")) { 
sexCarCount [1] +=count; 

Jelse { 
sexCarCount [2] +=count; 

$ 


countSum +=count; 


@ Override 
protected void cleanup (Reducer< Text, IntWritable, Text, Text> .Context context) 
throws IOException, InterruptedException { 
context .write (new Text (" 车 辆 总 量 :"), new Text ( (int) countSum+ "$f ") ) ; 
context .write (new Text ("J"), new Text ( (int) sexCarCount [0]+ "$f ") ) ; 
context .write (new Text (" 男 买 车 的 比例 ") ，new Text (sexCarCount [0] /countSum+ "") ) ; 
context .write (new Text (""), new Text ("")) 7 
context .write (new Text ("&"), new Text ( (int) sexCarCount [1]+ "$ ") ) ; 
context .write (newText (" 女 买 车 的 比例 ") ，new Text (sexCarCount [1] /countSum+ "") ) ; 
context .write (new Text (""), new Text ("")); 
context .write (new Text ("other"), new Text ( (int) sexCarCount [2]+ "$ ") ) ; 
context .write (new Text ("other KÆ HJ Ht fil"), new Text (sexCarCount [2] /countSum+ "") ) ; 


) 
程序 运行 结果 如 下 : 


车 辆 总 量 : 70363% 
男 42597 辆 
男 买 车 的 比例 0.6053891960263207 


女 18148 辆 
女 买 车 的 比例 0.2579196452681097 


other 9618$ 
other 买 车 的 比例 0.1366911587055697 


(2) 统计 车 的 所 有 权 、 型 号 和 类 型 实现 如 下 。 


public class CarPropertyMain { 
private static final String INPUT _PATH="hdfs://master:9000/cardata/2.2.txt"; 
private static final String OUTPUT PATH= "hdfs://master:9000/cardataout/out2.2"; 
public static void main(String[] args) 


throws IOException, ClassNotFoundException, InterruptedException, 


URISyntaxException { 
@ SuppressWarnings ("deprecation") 
Configuration conf=new Configuration (); 
Job job= new Job (conf, "CarSexMain") ; 


FileSystem fileSystem= FileSystem.get (new URI (INPUT_PATH), conf); 


if (fileSystem.exists (new Path (OUTPUT_PATH))) { 


$ 


fileSystem.delete (new Path (OUTPUT PATH), true); 


job.setJarByClass (CarPropertyMain.class); 
job.setMapperClass (CarPropertyMapper .class); 


job.setMapOutputValueClass (IntWritable.class); 


job.setReducerClass (CarPropertyReduce.class); 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 


FileInputFormat .addInput Path (job, new Path (INPUT_PATH) ); 
FileOutputFormat .setOutputPath (job, new Path (OUTPUT_PATH) ) ; 


job.waitForCompletion (true) ; 


public class CarPropertyMapper extends Mapper< LongWritable, Text, Text, IntWritable> { 


private Text newKey=new Text () 7 

private IntWritable newValue=new IntWritable (1); 
@ Override 

protected void map (LongWritable key, Text value, 


Mapper< LongWritable, Text, Text, IntWritable> .Context context) 


throws IOException, InterruptedException { 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (arr!=null && arr. length==3) { 


String properties=arr [0]; 

String model=arr[1]; 

String type=arr[2]; 

newKey.set (" 车 的 所 有 权 :"+ properties) ; 
context .write (newKey, newValue); 
newKey.set (" 车 的 型 号 :"+model) ; 
context .write (newKey, newValue); 
newKey.set (" 车 的 类 型 :"+ type); 

context .write (newKey, newValue); 


jelse if (arr!=nullé&é&arr.length==2) { 


String properties=arr[0]; 

String model=arr[1]; 

String type= "KA"; 

newKey.set (" 车 的 所 有 权 :"+ properties) ; 
context .write (newKey, newValue); 
newKey.set ("车 的 型 号 :"+model); 
context .write (newKey, newValue); 
newKey.set (" 车 的 类 型 :"+type) ; 

context .write (newKey, newValue); 


jelse if (arr!=null) { 


String properties=arr[0]; 
String model= "未知 "; 
String type= "未 知 "7 
newKey-set (" 车 的 所 有 权 :"+Properties)7 
context .write (newKey, newValue); 
newKey.set ("车 的 型 号 :"+model); 
context .write (newKey, newValue); 
newKey. set ("车 的 类 型 :"+type); 
Context .write (newKey, newValue); 

jelse { 
String properties= "Jil"; 
String model= "RAI"; 
String type=" 未 知 "; 
newKey.set ("车 的 所 有 权 :"+ properties) ; 
Context .write (newKey, newValue); 
newKey.set ("车 的 型 号 :"+model); 
context .write (newKey, newValue); 
newKey. set ("车 的 类 型 :"+ type); 
context .write (newKey, newValue); 


public class CarPropertyReduce extends Reducer< Text, IntWritable, Text, Text>{ 
@ Override 
protected void reduce (Text key, Iterable< IntWritable> values, 
Reducer< Text, IntWritable, Text, Text> .Context context) 
i throws IOException, InterruptedException { 
int count=0; 
for (IntWritable value:values) { 
count +=value.get (); 
} 
context .write (key, new Text (count+ "$ ") ) ; 


} 
程序 运行 结果 如 下 (车 型 号 为 部 分 结果 ) : 


车 的 型 号 :ZQ6399A63AF 38% 
车 的 型 号 :706392A62AF 193% 
车 的 型 号 :ZQ6416A72F 1% 
车 的 型 号 :706412A72F 3% 
车 的 型 号 :ZQ6426A73F 71 辆 
车 的 型 号 :206421A73AF 20% 
车 的 型 号 :ZZY6539A 8 辆 
车 的 所 有 权 :个 人 60745 

车 的 所 有 权 :单位 9617 辆 

车 的 类 型 :中 型 专用 校车 2995 
车 的 类 型 :中 型 普通 客车 13985 
车 的 类 型 :中 型 越野 客车 18 
车 的 类 型 :大 型 专用 校车 221% 


车 的 类 型 :大 型 双 层 客车 18 
车 的 类 型 :大 型 普通 客车 3 
车 的 类 型 :大 型 铵 接客 车 3 
车 的 类 型 :小 型 专用 客车 5% 
车 的 类 型 :小 型 普通 客车 62156% 
车 的 类 型 :微型 普通 客车 28 

车 的 类 型 :未 知 3271 


3. 不 同 车 型 销售 统计 分 析 
通过 不 同类 型 (品牌 ) 车 的 销售 情况 来 统计 发 动机 型 号 和 燃料 种 类 ,实现 如 下 。 


public class CarTypeMain { 
Private static final String INPUT PATH= "hdfs://master:9000/cardata/3.2.txt"; 
Private static final String OUTPUT PATH= "hdfs://master:9000/cardataout/out3.2"; 
public static void main (String[] args) 
throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException { 
@ SuppressWarnings ("deprecation") 
Configuration conf= new Configuration(); 
Job job= new Job (conf, "CarTypeMain") ; 
FileSystem fileSystem=FileSystem.get (new URI (INPUT_PATH), conf); 
if (fileSystem.exists (new Path (OUTPUT_PATH) )) { 
fileSystem.delete (new Path (OUTPUT_PATH), true); 
a 
job.setJarByClass (CarTypeMain.class) ; 
job.setMapperClass (CarTypeMapper.class) ; 
job.setMapOutputValueClass (IntWritable.class) ; 
job.setReducerClass (CarTypeReduce.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 


FileInputFormat .addInput Path (job, new Path (INPUT_PATH) ) 7 
FileOutputFormat .setOutput Path (job, new Path (OUTPUT_PATH) ) ; 


job.waitForCompletion (true); 


public class CarTypeMapper extends Mapper< LongWritable, Text, Text, IntWritable>{ 
private Text newKey= new Text () ; 
private IntWritable newValue=new IntWritable (1); 
@ Override 
protected void map (LongWritable key, Text value, 
Mapper<LongWritable, Text, Text, IntWritable> .Context context) 
throws IOException, InterruptedException { 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (arr!=nullééarr.length== 3) { 
String brandType=arr [0]; 
String engineType=arr[1]; 
String fuelType=arr[2]; 
newKey. set (brandType+ ", "+ engineTypet ":") 7 
context .write (newKey, newValue); 


newKey.set (brandType+ ", "+ fuelType+ ":") ; 
context .write (newKey, newValue); 
newKey.set (brandType+ ", Ait :"); 
context .write (newKey, newValue); 

jelse { 
newKey.set ("other:"+ linet ":"); 
context .write (newKey, newValue); 


} 


public class CarTypeReduce extends Reducer< Text, IntWritable, Text, Text>{ 
@ Override 
protected void reduce (Text key, Iterable< IntWritable> values, 
Reducer< Text, IntWritable, Text, Text> .Context context) 
throws IOException, InterruptedException { 
int count=0; 
for (IntWritable value:values) { 
count +=value.get (); 
} 
context .write (key, new Text (count+ "$f ") ) ; 


} 
程序 运行 结果 如 下 (部 分 结果 ) : 


1 辆 
45 辆 
44 辆 
6 辆 
6 辆 
飞碟 ,汽油 : 6 辆 
骊 山 ,4DX23-119E3F: 7 辆 
Su, : 15 辆 
骊 山 ,HFC4DA1-2B2: 16 辆 


J iu ,NQ100N4: 1% 
SL ,NQ120N4: 17% 


11.3 农产品 价格 分 析 


11.3.1 背景 介绍 


农产品 是 指 来 源 于 农业 的 初级 产品 , 即 在 农业 活动 中 获得 的 植物 \ 动 物 、 微 生物 及 其 产 
品 。 国 家 规定 初级 农产品 是 指 种 植 业 、 冀 牧 业 、 渔 业 产 品 。 

中 国 是 农业 大 国 ,农业 是 第 一 产业 ,是 国民 经 济 的 基础 。 农 业 是 提供 人 类 生存 必需 品 的 
生产 部 门 , 农 业 的 发 展 是 社会 分 工 和 国民 经 济 其 他 部 门 成 为 独立 的 生产 部 门 的 前 提 和 进 一 
步 发 展 的 基础 。 对 于 整个 大 的 经 济 形势 的 判断 ,特别 是 经 济 增 速 的 放 缓 ,这 应 该 是 接 下 来 若 
二 年 中 国 发 展 的 一 个 基本 的 常态 ,或 者 叫 新 常态 。 那 么 对 于 之 前 的 高 增长 和 现在 的 中 高 速 
增长 来 讲 , 首 先是 要 有 一 个 心理 的 准备 和 基本 的 判断 。 因 为 总 量 绝对 值 的 巨大 和 增 速 的 组 


慢 , 它 并 没有 在 总 量 和 规模 上 真正 到 了 一 个 让 人 特别 担心 的 状态 。 相 当 于 原来 十 块 钱 增长 
百 分 之 七 的 七 毛 钱 ,现在 是 一 百 块 钱 虽然 只 增加 了 百 分 之 六 点 几 , 那 也 是 六 块 多 钱 。 这 样 的 
一 个 基本 原理 ,在 理财 这 个 问题 上 的 影响 可 能 不 是 很 大 。 但 是 对 于 农民 来 讲 , 不 管 是 农产品 
的 具体 品种 选择 ,还 是 产量 规模 的 适度 , 亦 或 是 与 农产品 加 工 企 业 的 联络 以 及 农产品 市 场 的 
对 接 , 其 实 是 非常 值得 在 新 常态 下 去 研究 的 。 不 然 ,如 果 还 继续 在 主 粮 、 水 果 以 及 其 他 农 产 
品 上 出 现 销售 难 、 价 格 低 的 现象 , 那 就 会 变 成 了 供 大 于 求 ,市 场 的 接收 能 力 和 消化 能 力 有 限 
这 样 的 一 个 现实 状况 。 

农产品 是 居民 的 日 常生 活 必 需 品 之 一 , 它 的 价格 变动 对 于 人 们 的 日 常生 活 会 产生 直接 
影响 ,在 各 群体 中 尤其 对 低 收入 居民 的 影响 较 大 。 农 产品 的 价格 直接 刺激 农民 对 于 农业 生 
产 的 投入 ,从 而 影响 农业 的 发 展 。 农 产品 价格 的 不 合理 现状 逼迫 大 量 农村 劳动 力 的 外 流 , 这 
样 会 导致 生产 断层 ,影响 农产品 的 收成 ,从 而 影响 农产品 安全 。 因 此 进行 有 关 农 业 、 农 产品 
数据 的 挖掘 分 析 , 会 有 效 促进 我 国 农 业 发 展 。 

其 实 , 在 多 年 农业 生产 和 科研 中 就 已 经 产生 了 大 量 的 数据 。 这 些 数据 的 集成 .挖掘 和 使 
用 ,对 于 现代 农业 的 发 展 将 会 发 挥 极 其 重要 的 作用 。 当 前 农业 领域 存在 诸多 问题 ,如 粮食 安 
全 ,土壤 治理 ,病虫害 预测 与 防治 、 动 植物 育种 、 农 业 结 构 调整 、 农 产品 价格 、 农 副产品 消费 、 
小 城镇 建设 等 领域 ,都 可 通过 大 数据 的 应 用 研究 进行 预测 和 干预 。 大 数据 的 应 用 与 农业 领 
域 的 相关 科学 研究 相 结合 ,可 以 为 农业 科研 、 涉 农 企业 发 展 等 提供 新 方法 、 新 思路 ,为 相关 政 
策 的 提出 与 改进 提供 有 力 的 数据 支持 。 


11.3.2 数据 收集 


本 例 使 用 的 数据 需 每 日 进行 采集 汇总 。 数 据 范 围 涵盖 全 国 主要 省 份 (港澳 台 TA: 
南 暂 无 数据 ) 的 180 十 的 大 型 农产品 批发 市 场 ,380 十 的 农产品 品类 (由 于 季节 性 和 地 域 性 等 
特点 ,每 日 的 数据 中 不 一 定 会 涵盖 全 部 的 农产品 品类 )。 
11.3.3 数据 结构 


1. 数据 类 型 
数据 类 型 见 表 11-1。 


表 11-1 数据 类 型 
”中 文 名 称 | ”英文 名 称 | 。 数据 类 型 “| 。 中文 名 称 | ”英文 名 称 | 。 数据 类 型 
农产品 品类 name STRING 批发 市 场 名 称 market STRING 
批发 价格 price FLOAT 省 份 province STRING 
采集 时 间 crawl_time TimeStamp || 城市 city STRING 


2. 数据 样 例 

本 数据 样 例 提供 了 2014 年 1 月 份 的 农产品 批发 价格 的 数据 ,每 五 天 汇总 一 个 表格 , 共 
Aik Excel 表格 。 

3. 所 用 数据 

本 测试 只 用 2014 年 1 月 1 一 5 日 的 数据 。 


11.3.4 需求 分 析 
1. 数据 清洗 
将 其 中 5 个 XLS 格式 数据 转化 为 CSV 格式 ,并 实现 以 下 需求 : 
(1) 每 天 1 个 数据 文件 ; 
(2) 每 个 文件 中 的 字段 依次 见 表 11-1,\t 分 隔 (shell 实现 ) 。 
2. 数据 清洗 (shell 实现 ) 
清洗 china-province. txt 中 数据 ,让 其 按照 逗号 切 分 ,每 行 一 个 省 份 。 
3. 农产品 市 场 个 数 统计 (MapReduce 实现 ) 
(1) 统计 每 个 省 份 的 农产品 市 场 总 数 ; 
(2) 统计 没有 农产品 市 场 的 省 份 有 哪些 。 
4. 农产品 种 类 统计 (MapReduce) 
(1) 统计 每 个 省 农产品 种 类 总 数 ; 
(2) 统计 排名 前 3 的 省 份 共同 拥有 的 农产品 类 型 。 


11.3.5 MapReduce 编码 实现 

1. 数据 清洗 

(1) 在 本 地 ,手动 将 1 月 1~5 日 XLS 格式 转化 成 CSV 格式 ,原文 件 1 月 1 一 5 日 XLS 
的 内 容 见 表 11-2。 


表 11-2 11 月 1~5 日 数据 内 容 


J A © 5 E F G H 
王家 产品 品类 | 2014 年 1 月 1 日 | 2014 年 1 月 ?日 | 2014 年 1 月 3 日 | 2014 年 1 月 4 日 | 2014 年 ! 月 5 日 | 批发 市 场所 称 省 份 
EE 2.80] 4.00] 4.00] 4.00 2.20| 山 页 汾 阳 市 亚 阳 农 副产品 批发 市 场 “| 山西 
3 [xe 2.80 2.80] 280) 2.80] 2.60| 山 两 汾 阳 市 普 阳 农 副产品 批发 市 场 | 山西 
4 [BX 1.60] 160| 1.69 1.60] Leo] APT SR RAR i um 
5 AR 3.60] 3.60] 3.6) 3.60] 3.00| 山 丙 汾 阳 市 亚 阳 农 副产品 批改 市场 “| 山西 
6 pa 6.20] 6.40] 6.40] 6.40] 5.20| 山 琴 汾 阳 市 普 阳 农 副产品 批发 市 场 “| 山西 
1 R 5.60] 5.60 5.6) 5.60] 4 .60| 山 再 汾 阳 市 理 阳 衣 副 产品 批发 市 场 | 山本 
EN 520| 5.00 5.00 5.00 4 80 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 “| 山 两 
9 F 5.40] 4.40] 4.40] 4.40) 5.40| 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 “| 山西 
10 | 西红柿 4.80| 5.00] 5.00 5.00] 5.00| 山 西 汾 阳 市 普 阳 农 副产品 批发 市 场 “| 山 西 
CT 3.40] 4.00] 4.09) 4.00) 2o LAHE EARR RUA hi um 
12 E2 1.60 1.60] 1.60] 1.60] 150| 山 再 汾 阳 市 晋 阳 农 副产品 批发 市 场 | 山西 
13 maA 2.20] 3.00] 3.00] 3.00] 2.60| 山 两 汾 阳 市 普 阳 农 副产品 批发 市 场 UA 
4 ash 1.29 1.20 1.29 1.20) 0.60| 山 西府 阳 市 亚 阳 农 副产品 批发 市 场 | 山西 
45 eB 1.50 1.50) 1.50) 1.50 1.580| 山 再 汾 阳 市 晋 阳 农 副产品 批发 市 场 | 山西 
16|/+5 1.80 2.00 2.09 2.00] 1.80| 山 再 汾 阳 市 亚 阳 农 副产品 批发 市 场 | 山西 
17/5 9.00] 10.40] 10.40] 10.40] 8.60| 山 琴 汾 阳 市 音 阳 农 副产品 批发 市 场 “| 山西 
48 23481 5.40 5.40 5 40 540 4.40| 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 |e 
19 mi 3.44] 344| 3.44 344 3 .44| 山 西 兴 阳 市 晋 阳 农 副产品 批发 市 场 “| 山西 
20| 大洲 6.00 6.00 6.0) 6.00] SOU ARERR ERE matte pi UA 
21 | 豆油 .40| 8.40 8.40 8.40 8.40| 山 西 汾 阳 市 亚 阳 农 副产品 批发 市 场 “| 山西 
2817F 7.00 7.00] 7.00] 7.00] 了 .00| 山 再 汾 阳 市 普 阳 农 副产品 批发 市 场 [wae 
每 天 需 记录 为 1 个 数据 文件 ,如 图 11-1 所 示 。 
1 月 1 日 CSV 文件 的 内 容 为 见 表 11-3。 


1 月 2 日 CSV 文件 的 内 容 为 见 表 11-4。 


名 称 修改 日 期 类 型 大 小 

图 testljpg 2015/10/4 14:04 JPEG 图 你 42 KB 
A 1 A1B.csv 2016/1/4 17:51 Microsoft Excel ... 240 KB 
1 月 2 日 csv 2016/1/4 17:53 Microsoft Excel ... 240 KB 
1 月 3 日 .csv 2016/1/4 17:57 Microsoft Excel ... 240 KB 
国 工 月 4 日 .csv 2016/1/4 17:58 Microsoft Excel ... 240 KB 
1 月 5 日 .csv 2016/1/4 17:59 Microsoft Excel ... 240 KB 

图 11-1 数据 文件 


表 11-3 1 月 1 日 CSV 文件 内 容 


h 
> 
G 
a 
口 
加 
= 


.8 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.8 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 ” 汾 
.6 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.6 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.2 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 山西 汾 
.6 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
. 2 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.4 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
8 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.4 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.6 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.8 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
.2 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 山西 汾 
.5 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 山西 » 
.8 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 山西 汾 
9 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 
5.4 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 BA 
3.44 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 BA 
6 2014/1/1 汾 阳 农 副产品 批发 汾 


HHNH D OHN N 


BERR RRR 


表 11-4 1 月 2 日 CSV 文 件 内 容 


4|__A a ara == =D) T Eset F 
1 | 香菜 4 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ” 山西 汾 阳 
2 5 2.8 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ”山西 汾 阳 
EIRE 1.6 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 UA 汾 阳 
二 大蒜 3.6 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 
| 5 蒜苔 6.4 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 
6 | 韭菜 5.6 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 UA 汾 阳 
7 青 5 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 
8 | 茄子 4.4 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ”山西 汾 阳 
| 9 西红柿 5 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 
|10 黄瓜 4 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ”山西 汾 阳 
|11 青 冬瓜 1.6 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ”山西 汾 阳 
|12 西葫芦 3 2014/1/2 山西 汾 阳 市 普 阳 农 副 产品 批发 市 场 ”山西 汾 阳 
|13 As | 1.2 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ” 山西 汾 阳 
14 Ae h 1.5 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ” 山西 汾 阳 
15 +E 2 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 
Ta 10.4 2014/1/2 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ”山西 汾 阳 
17 [RH 5.4 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ”山西 汾 阳 
18 面粉 3.44 2014/1/2 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ”山西 汾 阳 
19 大米 6 2014/1/2 山西 汾 阳 市 普 阳 农 副 产品 批发 市 场 ” 山西 汾 阳 


其 余 3 天 的 CSV 文件 的 内 容 见 表 11-2, 只 是 时 间 和 价格 不 同 。 

(2) 右 击 “1 月 1 A. csv”- 盖 打开 方式 ”记事 本 ”一 单 击 “文件 ”另存 为 ”一 将 “ 编 
码 ” 修 改 为 UTF-8。 若 编码 不 是 UTF-8 上 传 到 HDFS 上 时 会 出 现 乱 码 现象 。 

以 1 月 1 日 .csv 为 例 , 如 图 1-2 所 示 是 编码 没有 修改 (默认 为 Unicode) 上 传 到 HDFS 
上 的 效果 。 可 以 看 出 文件 名 和 文件 的 内 容 都 是 乱码 。 


[zkpk@master farmdata]$ ll 
total 240 

-rw-r--r--. 1 root root 245607 Jan 4 17:36 |h? 
[zkpk@master farmdata]$ head h??1??.csv 
0666, 2.80,2014/1/1, [6066666u66606666366666r6， (66, 666 


, [6060000660606666566666r6, (66, 
6666 ,3.66,26141111，r6666006h66606600566666r6， [的 ， 


,5.49,2614/1/1， COOOL VOT [的 
|666666 ,4.86,2614/1/1， (UV WS 
[Oz0,3.40,2014/1/1 Wo 6 


图 11-2 编码 设 有 修改 上 传 到 HDFS 上 的 效果 
如 图 11-3 所 示 是 编码 修改 为 UTF-8 后 上 传 到 HDFS 上 的 效果 。 可 以 看 出 文件 名 和 文 
件 的 内 容 不 再 是 乱码 。( 手 动 修改 一 下 文件 名 ) 


[zkpk@master Desktop]$ cd farmdata/ 
[zkpk@master farmdata]$ ll 


total 324 

-rw-r--r--. 1 root root 329003 Jan 4 18 Vv 

(zkpkenaster tonal E E a ae aiis 
[zkpk@master farmdata]$ 

total 324 


-rw-r--r--. 1 root root 329003 Jan 4 18:20 一 月 1 日 .cSV 
[zkpk@master farmdata]$ head 1A 1A .csv 

香菜 ,2.86,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
大 枇 ,2.86,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
1.66,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
3.66,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
,6.29,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
5.69,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
青椒 ,5.29,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
茄子 ,5.49,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 
西红柿 ,4.89,2614/1/1, 山 西 汾 阳 市 亚 阳 农 副 产品 批发 市 场 ,山西 , 汾 阳 
黄瓜 ,3.49,2614/1/1, 山 西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ,山西 , 汾 阳 


图 11-3 编码 修改 为 UTF-8 后 上 传 到 HDFS 上 的 效果 


用 代码 perl -p -i -e“s/,/\t/g”1 H 1 A. csv 将 *, ”分隔 修 改 为 "\t" 分 隔 。 具 体 实 现 如 
图 11-4 所 示 。 


[zkpk@master farmdata]$ |perl -| -e *s/,/\t/g" — R10 .csv| 

[zkpk@master farmdata]$ head ~ A IH .csv 

香菜 2.80 2014/1/1 阳 市 晋 阳 农 副产品 批发 市 场 山西 MM 
ze 2.80 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 ws 汾 阳 
1.68 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批改 市场” 山西 。 汾 阳 
A 3.60 2014/1/1 山西 汾 阳 市 晋 阳 农 剧 产 品 批改 市场” 山西 。 汾 阳 
bd 6.20 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 山西 汾 阳 
韭菜 5.60 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 山西 。 汾 阳 
=a 5.20 2014/1/1 山西 汾 阳 市 晋 阳 农 剧 产品 批发 市 场 ” 山西 。 汾 阳 
茄子 5.40 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 ”山西 汾 阳 
西红柿 4.80 2014/1/1 山西 汾 阳 市 晋 阳 农 副产品 批发 市 场 LA 。 汾 阳 
黄瓜 3.490 2014/1/1 山西 汾 阳 市 晋 阳 农 副 产品 批发 市 场 UA 汾 阳 


图 11-4 用 代码 将 “,” 分 隔 修 改 为 “\t” 分 隔 


2. 数据 清洗 (shell 实现 ) 
先 将 china-province. txt 文件 的 编码 格式 修改 为 UTF-8, 然 后 将 其 上 传 到 HDFS 上 。 
其 内 容 如 图 11-5 所 示 。 


[zkpk@master farmdata]$ Ul 

‘otal 4 

|-rw-r--r--. 1 root root 441 Sep 22 20:22 china-province.txt 

[zkpk@master farmdata]$ cat china-province.txt 

te, Lae, Le, SKA, ARTA, THA, KIA, HH, ABA, THA 
LRS, DS, Bits, ASA, OKRA, BAA, BG, RNA, BHA, RBS 
甘肃 省 ， 青 海 省 ， 台 湾 省 ， 内 蒙古 自治 区 ， 广 西 壮族 自治 区 ， 西 藏 自治 区 ， 宁 夏 回 族 自治 | 
， 新 疆 维吾尔 自治 区 ， 香 港 特别 行政 区 ， 澳 门 特别 行政 区 [zkpk@master farmdata]$ $ 


图 11-5 ”编码 格式 修改 再 将 其 上 传 到 HDFS 上 


用 代码 sed -e "s/,/\n/g" china-province. txt 将 “,? 分 隔 修改 为 “\n” 分 隔 。 然 后 将 其 追 
加 到 province. txt 中 ,因为 sed 只 是 在 当前 操作 有 效 。 具 体 实现 如 图 1-6 所 示 。 


[zkpk@master farmdatal$ [sed -e "s/, /\n/g" china-province.txt >> province.txt 
[zkpk@master farmdata]$ TU 


--. 1 root root 441 Sep 22 20:22 china-province. txt 
. 1 zkpk zkpk 383 Jan 4 18:56 province.txt 
[zkpk@master farmdata]$ head province.txt 


图 11-6 将 “,” 分 隔 修 改 为 ^\n” 分 隔 


3. 农产品 市 场 个 数 统计 (MapReduce 实现 ) 
(1) 统计 每 个 省 份 的 农产品 市 场 总 数 ,具体 实现 如 下 所 示 。 


package test3; 
public class ShiChangSum { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException { 
if (null==args||args.length !=2) { 
System.err.Println ("< Usage> :ShiChangSum < input>< output> < output> ..."); 
System.exit (1); 


} 

Job job= new Job (new Configuration () ,ShiChangSum.class.getSimpleName () ) ; 
job. setJarByClass (ShiChangSum.class) ; 

job. setMapperClass (ShiChangMapper.class) ; 
job.setMapOutputKeyClass (Text .class) ; 

job. setMapOutputValueClass (Text .class) ; 
job.setReducerClass (ShiChangReducer.class) ; 

job. setOutputKeyClass (Text .class); 
job.setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (job, new Path (args[0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 
job.waitForCompletion (true) ; 


public static class ShiChangMapper extends Mapper< Object, Text, Text, Text>{ 
public Text keyText=new Text (); 
public Text valueText=new Text () 7 
public void map (Object key, Text value,Context context) 
throws InterruptedException, IOException{ 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (null!=arr && arr.length==6) { 
String shichang=arr [3]; 
String sheng= arr [4]; 
keyText .set (sheng) ; 
valueText .set (shichang) ; 
context.write (keyText, valueText) ; 


3 
public static class ShiChangReducer extends Reducer<Text, Text, Text, IntWritable> { 
public IntWritable valueSum=new IntWritable(); 
public void reduce (Text key, Iterable< Text> values, Context context) 
throws InterruptedException, IOException{ 
HashSet< String> market= new HashSet< String> (); 
for (Text value:values) { 
market .add(value.toString()); 
} 
valueSum. set (market.size()) 7 
context .write (key, valueSum) ; 


之 后 ,进行 打包 工作 , 包 的 名 称 为 test3-1. jar 存储 ,路 径 任 意 。 将 我 们 用 到 的 文件 1 月 
1 日 .txt( 编 码 格式 为 UTF-8) 上 传 到 HDFS 目录 /files 中 ,运行 的 代码 如 下 。 


hadoop jar test3- 1.jar test3.ShiChangSum /files/1 月 1 .txt/output-test3-1 


运行 完 上 述 代码 后 ,查看 一 下 /output-test3-1 目录 。 
输入 : 

hadoop fs-1s /output-test3-1 

输出 结果 : 


Found 2 items 


2 zkpk supergroup 9 2016-01-05 17:44 /output-test3-1/_SUCCESS 
2 zkpk supergroup 250 2016-01-05 17:44 /output-test3-1/part-r-69669 


hadoop fs- cat/output— test3- 1/part- r- 00000 
显示 结果 如 下 : 


1 
3 
6 
1 
6 
4 
1 
安徽 5 
9 
1 
2 
3 
2 
7 
1 
5 


(D 统计 没有 农产品 市 场 的 省 份 有 哪些 ,具体 实现 如 下 。 


Package test37 
public class ShengDemo { 
public static void main (String[] args) throws IOException, ClassNotFoundException, 
InterruptedException { 
if (null==args|largs.length !=3) { 
System.err.println ("< Usage> :ShengDemo < input> < output>< output> ...") ; 
System.exit (1); 
} 
Job job= new Job (new Configuration () ,ShengDemo.class.getSimpleName () ) ; 
job.setJarByClass (ShengDemo.class) ; 


MultipleInputs. addInputPath (job, new Path (args [0]), TextInputFormat. 


WholeShengMapper .class) ; 


MultipleInputs. addInputPath (job, new Path (args [1]), TextInputFormat. 


ShengMapper.class) ; 

job.setMapOutputKeyClass (Text .class) ; 
job.setMapOutputValueClass (IntWritable.class) ; 
job.setReducerClass (ShengReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 

job. setOutputValueClass (NullWritable.class) ; 


FileOutputFormat .setOutputPath (job, new Path(args[2])); 


job.waitForCompletion (true); 
} 
public static class ShengMapper extends Mapper< Object, Text, Text, IntWritable>{ 
public Text keytText=new Text (); 
public IntWritable values=new IntWritable (1); 
protected void map (Object key, Text value,Context context) 
throws InterruptedException, IOException{ 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (null !=arr && arr.length==6) { 
String sheng=arr[4]; 
keyt Text .set (sheng) ; 


class, 


class, 


context.write (keytText, values); 


} 
public static class WholeShengMapper extends Mapper< Object, Text, Text, 
IntWritable> { 
public Text keyText=new Text (); 
public IntWritable valWritable=new IntWritable (0); 
protected void map (Object key, Text value,Context context) 
throws InterruptedException, IOException{ 
String country=value.toString(); 
if (country-endsWith ("省 ")){ 
country=country.substring(0, country. length()- "#".length()); 
} 
if (country.endsWith ("特别 行政 区 ")){ 
country=country.substring (0, country.length ()- "特别 行政 区 ".length()); 
} 
if(country.startsWith(" 内 蒙古 ")){ 
country=" 内 蒙古 "; 
} 
if (country.startsWith ("7 P ")) { 
country= "J" P"; 
} 
if (country.startsWith ("西藏 ")){ 
country= "Pi #"; 
} 
if (country.startsWith ("F E ")){ 
country="F E"; 
y 
if (country.startsWith ("$3") ) { 
country= "新 疆 "7 
让 
keyText .set (country) ; 
Context .write (keyText, valWritable) ; 


} 
public static class ShengReducer extends Reducer< Text, IntWritable, Text, NullWritable 
>i 
protected void reduce (Text key, Iterable< IntWritable> values, Context context) throws 
InterruptedException, IOException{ 
int sum=0; 
for (IntWritable value :values) { 
sum+=value.get (); 
} 
if (sum==0) { 
context .write (key, NullWritable.get ()); 


之 后 ,进行 打包 , 包 的 名 称 为 test3-1. jar, 存 储 路 径 任意 。 这 里 我 们 用 到 3 个 路 径 ,2 个 
输入 路 径 , 分 别 是 /files/province. txt 和 /files/1 月 1 A. txt( 注 意 2 个 输入 路 径 的 顺序 ); 
1 个 输出 路 径 ,/output-test3-2, 代 码 如 下 。 


hadoop jar test3- 2.jar test3.ShengDemo/files/province.txt/files/1 月 1 H .txt/output-test3 
=2 


运行 完 上 述 代码 ,查看 一 下 /output-test3-2 目录 。 
输入 : 


hadoop fs- 1s /output- test3- 2 


输出 : 


Found 2 items 
-rw-r--r-- 2 zkpk supergroup Ə 2016-01-05 19:01 /output-test3-2/ SUCCESS 
-rw-r--r-- 2 zkpk supergroup 49 2016-01-05 19:01 /output-test3-2/part-r-00000 


再 输入 : 
hadoop fs- cat/output- test3- 2/part- r- 00000 


显示 结果 如 下 : 


4. 农产品 种 类 统计 (MapReduce) 
(1) 统计 每 个 省 农产品 种 类 总 数 ,具体 实现 如 下 。 


package test4; 
public class MarketSum { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException { 
if (null==args||args.length !=2) { 
System.err.print1n ("< Usage> :MarketSum < input>< output>< output> ..."); 
System.exit (1); 
> 
Job job=new Job (new Configuration () ,MarketSum.class.getSimpleName ()) ; 
job.setJarByClass (MarketSum.class) ; 
jjob.setMapperClass (MarketMapper.class) ; 
job. setMapOutputKeyClass (Text .class) ; 
job. setMapOutputValueClass (Text .class) ; 
jjob.setReducerClass (MarketReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job. setOutputValueClass (IntWritable.class) ; 
FileInputFormat .addInputPath (job, new Path (args[0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 
job. wait ForCompletion (true) ; 


public static class MarketMapper extends Mapper< Object, Text, Text, Text>{ 
public Text keyText=new Text (); 
public Text valueText=new Text (); 
protected void map (Object key, Text value,Context context) 
throws InterruptedException, IOException{ 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (null !=arr && arr.length==6) { 
String veg=arr[0]; 
String sheng=arr[4]; 
keyText .set (sheng) 7 
valueText .set (veg); 
context.write (keyText, valueText) ; 


} 
public static class MarketReducer extends Reducer<Text, Text, Text, IntWritable> 
{ 
public IntWritable valueVeg= new IntWritable(); 
protected void reduce (Text key, Iterable< Text> values, Context context) 
throws InterruptedException, IOException{ 
HashSet< String> vegsSet= new HashSet< String> (); 
for (Text value :values) { 
vegsSet .add (value.toString()); 
$ 


valueVeg.set (vegsSet.size()); 
context.write (key, valueVeg) ; 


之 后 ,进行 打包 工作 , 包 的 名 称 为 test3-1. jar, 存储 路 径 任意 。 需 要 的 输入 路 径 为 / 
files/1 月 1 日 .txt, 输 出 路 径 为 /output-test4-1。 运 行 的 代码 如 下 : 


hadoop jar test4- 1.jar test4.MarketSum/files/1 月 1 日 .txt/output- test4- 1 
运行 完 上 述 代码 ,查看 一 下 /output-test4-1 Hat. 

输入 : 

hadoop fs- 1s /output-test4-1 

输出 : 


Found 2 items 
-rw-r--r-- 2 zkpk supergroup 8 2016-01-05 19:02 /output-test4-1/_ SUCCESS 
-rw-r--r-- 2 zkpk supergroup 283 2016-01-05 19:02 /output-test4-1/part-r-00000 


hadoop fs- cat/output- test4- 1/part- r- 00000 
显示 结果 如 下 : 


内 蒙古 102 
北京 169 
吉林 47 
四 川 77 
天 津 76 
宁夏 53 
安徽 114 
山东 134 
山西 106 
广东 70 
广西 78 
新 疆 106 
江苏 167 
江西 23 
河北 99 
(2) 统计 排名 前 三 的 省 份 共同 拥有 的 农产品 类 型 ,具体 实现 如 下 。 
package test4; 


public class OrderThree { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException { 
if (null==args||args.length !=2) { 
System.err printIn ("< Usage> :OrderThree < input> < output> < output> ...") 7 
System.exit (1); 
} 
Job job= new Job (new Configuration(), OrderThree.class.getSimpleName () ) ; 
job.setJarByClass (OrderThree.class) ; 
job.setMapperClass (OrderThreeMapper .class) ; 
job.setReducerClass (OrderThreeReducer.class) ; 
job.setOutputKeyClass (Text.class) ; 
job.setOutputValueClass (Text.class) ; 


FileInputFormat .addInputPath (job, new Path (args[0])); 
FileOutputFormat .setOutputPath (job, new Path(args[1])); 
jjob.waitForCompletion (true); 

} 


public static class OrderThreeMapper extends Mapper< Object, Text, Text, Text> { 
private Text keytText=new Text () 7 
private Text valuetText=new Text () 7 
@ Override 
protected void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
String line=value.toString(); 
String[] arr=line.split ("\t"); 
if (arr !=null && arr.length==6) { 
String province=arr [4]; 
if (province.equals ("dt JX ") || province. equals ("Il 4") | | province.equals (" 
江苏 ")) { 
keytText.set (arr[0]); 
valuetText .set (province) ; 
context .write (keytText, valuetText) ; 


public static class OrderThreeReducer extends Reducer< Text, Text, Text, Text>{ 
private Text val=new Text (""); 
@ Override 
protected void reduce (Text key, Iterable<Text> values, Context context) 
throws IOException, InterruptedException { 
int bei=0; 
int shan=0; 
int jiang=0; 
for (Text value : values) { 
String province=value.toString(); 
if (province.equals ("ILR ")) { 
beit+; 
} 
if (province.equals ("IZK ")) { 
shant+; 
} 
if (province.equals ("江苏 ")) { 
jiangt+; 


} 
if (bei>0 sg shan>0 && jiang>0) { 
context .write (key, val); 


之 后 进行 打包 , 包 的 名 称 为 test4-2. jar, 存 储 路 径 任意 。 需 要 的 输入 路 径 为 /files/1 月 
1 日 .txt, 输 出 路 径 为 /output-test4-2。 运 行 的 代码 如 下 : 


hadoop jar test4- 2.jar test4.0rderThree /files/1 月 1 日 .txt/output- test4- 2 
运行 完 上 述 代码 ,查看 一 下 /output-test4-2 目录 。 

输入 : 

hadoop fs- 1s /output- test4- 2 

输出 : 


Found 2 items 
=- © 2016-01-05 19:03 /output-test4-2/_SUCCESS 
777 2016-01-05 19:03 /output-test4-2/part-r-90000 


再 输入 : 


hadoop fs- cat/output- test4- 2/part- r- 00000 


显示 结果 如 下 : 
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